很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱admin@aa.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:丽江涉县新闻网站公示网小羽毛
自从OpenAI公布全新的别吹生成式人工智能模型Sora之后,可谓是影视“一石激起千层浪”,相关的行业巫山新闻网菌子中毒讨论一直没有停止。
关于这个号称“只要输入文本指令,没那就能输出60秒视频”的别吹新工具,人们感到期待、影视焦虑、行业恐惧……共同组成了一幅巨大的没那“Sora乱象图”。一方面,别吹各种标签上写着“该视频由Sora生成”,影视但实际上是行业网友制作的搞怪视频成为了“整活”的流量密码,让不少网络乐子人收获了欢乐。没那

网友将搞怪视频打上“该视频由sora生成的别吹标签”
另一方面,虽然Sora并没有开放使用,影视但网络上却出现了一大批“培训机构”,行业利用行业焦虑和信息不对称,打起了收割韭菜的算盘。一个自称清华博士的卖课博主,入门AI课达到了199元一份,光是在视频号里,就卖出了520多份。还有人扒出,这门AI课他一年售出了25万套,销售额将近5000万。于是网友们纷纷阴阳怪气地称他为:唯一可以与奥特曼平起平坐的AI巨头。

网友制作的梗图
Sora究竟是什么?
Sora,源自日语“空(そら,巫山新闻网菌子中毒发音为sora)”,不仅指代天空,还象征着无垠的空间和无限的可能性,从而引申出自由的寓意。在OpenAI关于Sora的介绍中,首页就可以看到无数在空中自由飞翔的纸飞机,象征着Sora模型的自主性和创造性,反映出“空”所蕴含的自由理念。

Sora介绍页面
关于Sora生成的各种视频我想大伙应该都已经见得不少了,相信很多人在看完视频之后都会有一个疑问:Sora是如何生成视频的呢?
在OpenAI放出的技术报告中是这样描述Sora的:Sora是一个“扩散变换器(Diffusion Transformer)”。与传统的变换器(包括编码器和解码器)在处理方式上存在类似之处,但其处理的并不是文本标签,而是被称为“补丁(Patches)”的视觉数据。

补丁(Patches),其实就是大模型在处理视频和图像数据时,将视觉数据分解成小块或小部分的一种方法。通过将视频压缩到一个低维度的潜在空间,把空间的标识分解成为多个补丁,以此来让模型更好地处理和生成高质量的视频和图像内容。这种方法的优势在于能够允许模型处理不同分辨率、持续时间和宽高比的视觉数据,为视频和图像生成提供了更大的灵活性和能力。

视觉编码过程
而“扩散变换器”则是一种结合了扩散模型和变换器架构的技术,能够通过利用变换器处理数据间复杂关系的能力,以及扩散模型逐步精炼数据的策略,来生成或预测视频和图像中的“干净”补丁,逐步从包含噪声的数据中恢复出干净的数据,来生成图像或视频。
我们举个简单的例子,假如我们现在有一张狗狗的照片,我们可以一步步给这张照片增加噪点,让它变得越来越模糊,最终会变成一堆杂乱的噪点。如果我们把这个过程倒过来,对于一堆杂乱无章的噪点,我们同样可以一步步去除噪点,把它还原成目标图片,而扩散模型的关键就在于学会逆向去除噪点。

事实上,此前大火的Midjourney和Stable Diffusion的图像和视频生成器就同样基于扩散模型,不过不同的是Sora能够通过让模型一次预测多帧画面,确保了即使被摄体在离开视线后仍然能保持不变,也使其展示出了对影视拍摄语法的全新自发理解,不仅可以跟随对象移动镜头,还可以在移动镜头转换角度的时候,仍然能够保持画面的合理与完整。
Sora另一个很强的地方在于,它“继承”了OpenAI对文本的理解能力,能够根据提示词生成高质量的图片和视频,并且能够对视频进行向前或向后的扩展,例如,在这个官网展示的这个视频中,Sora能够基于同一个视频开头进行拓展,延伸出不一样的结尾,或从不同的开头引入,最终得到同一个结尾。

三个视频开头最终都会走向同一个结尾
不过事实上,OpenAI的野心远不止于此,Sora不仅是一个创造性的工具,它实际上还是一个基于数据的复杂模拟系统,能够模拟现实或想象中的世界。它通过学习如何正确地渲染场景、模拟物理行为、进行长期推理和理解场景的含义,从而创建出逼真的 3D 场景和动画。
这就使其能够创造出很多现实中不存在的视频,例如在下面这个视频中,提示词为“两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频”。这样的要求不仅需要Sora生成一个逼真的3D模型,还需要让这些模型根据物理规则动画化,并模拟液体的动力学,还要使用高级渲染技术来实现照片级的真实感,即使场景的语义在现实世界中并不存在,但引擎仍然能实现我们期望的正确物理规则。

这一点虽然目前Sora仍有缺陷,但确是一个很有前景的目标,通过建立这样一个复杂的模拟系统,我们就能够对真实世界进行建模和预测,甚至是构建起真实世界的数字交互。无论Google、OpenAI还是马斯克的xAI,终极目的都是构建起世界模型,就比方说电影《流浪地球2》里面的MOSS,就是一个强人工智能的化身,能够通过构建真实世界模型,再加上强大的算力,来推演不同选择导致的结果,达到预测的目的,这或许就是很多人眼中AI的终极形态了吧。
不过无论如何,这些都是后话了。

Sora真会砸掉整个影视行业的饭碗?
事实上,人工智能从诞生的那一天起,就常常会成为很多人幻想中的“假想敌”,而随着ChatGPT等新工具的发展,对于AI的遥远恐惧渐渐演变成了近在眼前的对饭碗的深深担忧,在Sora发布后更是如此。
单就Sora生成视频的能力来看,首当其冲的必然是影视从业者。毕竟传统方式制作一段1分钟的视频成本非常高,除了场景、灯光、演员,还要提前沟通分镜、找好角度、考虑好摄像机与演员的走位等。如果再需要一些特殊因素,例如转瞬即逝的光影、理想的天气条件等,那就更要赌一赌运气了。
而这一切在Sora这里都不是问题,只要通过简单的提示语句,就可以直接生成视频,而且相较于之前的AI工具,无论是视频的时长、画面精细度,还是细节的完整性,甚至是多镜头拍摄,Sora都可以用“碾压”来概括,很明显将会为相关从业者带来更大影响。

网友制作的梗图,好莱坞经典标识“HOLLYWOOD”变成了“SORAWOOD”
行业调查公司CVL Economics不久前发布的一项对好莱坞行业领袖的调查显示,目前忧虑的情绪正笼罩着整个好莱坞,36%的受访者表示生成式AI已经减少了他们公司的日常工作技能需求,72%的受访公司都是生成式AI工具的最早采用者。
而在这其中还有75%的受访者表示,生成式AI工具已经促使他们业务部门削减与合并相关的工作岗位。还有人预计,未来三年好莱坞总计会有超过20万人的工作岗位会受到AI冲击,其中尤其是视觉特效、音效师、画图师等后期工作岗位。

事实上,受到影响的并不只有影视行业从业者。面对来自Sora的“降维打击”,AI视频领域的创业者中,有的如Runway CEO克里斯托瓦尔·巴伦苏埃拉一样,做好了“Game On”的准备,有的如Pika创始人郭文景一样,开始筹备对标Sora的新产品,也有人如Stability AI CEO埃马德·莫斯塔克一样,不由感慨“阿尔特曼真是一个魔术师”,并将Sora视为AI视频界的GPT-3时刻。这一次,很多人真的感受到了危机感。
风物长宜放眼量
虽然Sora确实很劲爆,但如果因此而过分焦虑也大可不必。一方面由于Sora在其生成的视频中仍然存在很多经典的“灵魂错误”。例如在很多视频中,人物、动物会凭空消失、变形或者变出分身;还会出现一些违背物理常识的“闹鬼”画面,像人吹过的蜡烛没有变化、穿过篮筐的篮球、悬浮移动的椅子等。

Sora生成的视频中,老人吹蜡烛前后火苗纹丝不动,略显诡异
另一方面也在于,AI在视频生成的逻辑与人类的创作逻辑是截然不同的,这从根本上决定了Sora并不能真正辨别故事的好坏。毕竟影视是从人的情感出发,最后也以触动人类情感为目的,也许随着生成技术的发展,其视频逻辑、质量和对真实世界的模拟程度会有更高的提升,但却不能代替人类在影视制作过程中起到的作用。还有很多人认为,越是机器生成的东西,很多时候会愈发让我们感受到人类之作的珍贵,例如带着“锅气”的食物很多时候优于预制菜、凝聚了工人心血的器具虽然精确度不如机械但却有更多的“温度”……这样的例子可谓俯仰皆是,更何况是在影视这一最能体现人类情感、囊括各种艺术门类的综合艺术呢?
事实上,除开影视剧作、剧情设计等方面的元素,即使仅从视频呈现的而言,AI生成的内容在信息量上并不能与真实拍摄相比,例如在很多电影场景中,人物的表达、语气、表情的背后,不仅是各种细腻的人类情感,举手投足之间积累的是半生的经历、情绪与风土人情的总和。
这些内容虽然看似并不显眼,但却时时刻刻都在传达很多信息,正是这些内容才真正组合成了每一个与众不同的人,也经由各种反应、互动形成了人物之间情绪的流动,也正是这些细节的变化,在无声无息地影响着我们的情绪,为我们带来感动,这是生成式AI很难做到的,或许这才是很多AI生成视频看起来“没有灵魂”的根本原因。

几乎全片都由对话构成的经典电影《爱在黎明破晓前》
此外,在影视行业中使用AI早已不是新鲜事,此前曾在好莱坞横扫最佳影片、最佳导演等7大奖项的《瞬息全宇宙》就曾使用Runway的AI视频工具,去年21世纪福克斯已经与IBM沃森合作,用AI工具为关于AI主题的恐怖片《摩根》制作预告片,迪士尼旗下的漫威则完全使用AI制作了《秘密入侵》的开头动画。
不久前,NVIDIA创始人黄仁勋曾在一次参访中表示,“在过去的10年、15年中,几乎每个人都会告诉你,学计算机对孩子来说至关重要,每个人都该学习如何编程。但事实上,情况完全相反,我们的工作是创造计算技术,使得任何人都不再需要编程,使得编程语言变成人性的,现在世界上每一个人都是程序员,技术鸿沟已经完全弥合。”

而这似乎成为了AI时代的真实写照,无论ChatGPT-4也好、Sora也罢,通过借助日新月异的新技术,不懂编程语言的人也能够制作软件程序,没有影视相关技术背景的人也能够从容地制作自己的视频,这无疑将会进一步,激活新的产能,促进行业的发展,甚至是让人和人之间产生新的链接,这或许才是生成式AI的更大意义。
我们有理由期待,未来必然会有更多的AI技术和电影或电视剧制作的结合与创新,也许会出现一些我们从未想象过的精彩作品,给我们带来更多惊喜。
本文为作者独立观点,不代表丽江涉县新闻网站公示网立场,未经允许不得转载。
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)
友情链接
