Sora横(heng)空出世,Sora是什么?能干(gan)什么,有哪些优点(dian)缺点?
发(fa)布日期:2024-02-21
点击次(ci)数:16948
一、Sora的概念介绍
2024年2月16日,OpenAI发布了“文生视频”(text-to-video)的大模型工具,Sora(利用自然语言(yan)描述(shu),生成视频)。这个消息一经发出,全球社交主流媒体平台以及整(zheng)个世界都再次被OpenAI震撼了。AI视(shi)频的高度一下子被Sora拉高了,要知道(dao)Runway Pika等(deng)文生视频工具,都还在突破几秒内的连贯性(xing),而Sora已经可以直接生成长(zhang)达60s的一镜(jing)到底(di)视频,要知道目前Sora还(hai)没有正式发布,就已经能达到这个效果。
Sora这一名称源于(yu)日文“空”(そら sora),即天(tian)空之意(yi),以示其无限的创造潜力。


二、Sora的(de)实现路径
Sora的重要意义在于它再次推(tui)动了AIGC在AI驱动内容创作方面的上限。在此之(zhi)前,ChatGPT等文本类模型已经开始辅助内容创作,包括(kuo)插图(tu)和画面的生成,甚至使用虚拟人制(zhi)作短(duan)视频。而Sora则(ze)是一款专注于视频生成(cheng)的大模型,通过(guo)输入文本或图片,以多种方式编辑视频,包(bao)括生成、连接和扩展,属于多模态大模型的范畴。这类模型在(zai)GPT等语言模型的基础上(shang)进行了延(yan)伸和拓展(zhan)。
Sora采用类似(shi)于(yu)GPT-4对文本令牌进行操作的方式来(lai)处(chu)理视频“补丁”。其关键创新在于将视频帧视为(wei)补丁序(xu)列,类似于(yu)语言模型(xing)中的单(dan)词令牌,使其能够有(you)效地管理各种视频信息(xi)。通过结合文本条件生成,Sora能够(gou)根据文本提示生成上下文相关且视觉上连贯的视频。
在原理上,Sora主要通过(guo)三个步(bu)骤(zhou)实现视频训(xun)练。首先是视频压缩(suo)网络(luo),将视频或图片降维成紧凑而高效的形式。其次是时空(kong)补丁提取,将视(shi)图信息分解成更小的单元,每个单元都(dou)包含了视图中一部分的空间和时间信息,以便Sora在后续步骤中进行有针对性的处理。最后是视频生成,通过输入文本或图(tu)片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如(ru)何(he)将这些单元转换或组合,从而形成完整的视频内(nei)容。
总体而言,Sora的出现将进一(yi)步推动AI视频生成和多模态大模型的发展,为内容创作领(ling)域带(dai)来了新(xin)的可能性。
三、Sora的6大优势
《每日经济新闻》记者对报(bao)告进行梳理(li),总结出了Sora的六大优势:
(1)准(zhun)确性和多样性:Sora可将简短的文本描(miao)述转化成长达1分(fen)钟的高清视频。它可以准确地解释用户提(ti)供的文本输入,并(bing)生成(cheng)具(ju)有各(ge)种场景和人物(wu)的(de)高质量视频剪辑。它涵盖了广泛的主题,从人物和(he)动物到郁郁葱葱的风景、城市场(chang)景(jing)、花园,甚至是水下的纽约市,可(ke)根据用户的要求提供多样化的内容。另据Medium,Sora能够(gou)准确(que)解释长达135个单词的长提示。
(2)强大的(de)语(yu)言(yan)理解:OpenAI利用Dall·E模型的recaptioning(重述(shu)要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文(wen)本的准确性,还能提升视(shi)频的整体质量(liang)。此(ci)外,与DALL·E 3类似,OpenAI还利用(yong)GPT技(ji)术将简短的用(yong)户提示转(zhuan)换为更长的详细(xi)转译,并将其发送到视频模(mo)型。这使Sora能够精确地按照用户提示生成高质量的视频。
(3)以图/视频生成视频:Sora除了可以将文本(ben)转化为视(shi)频,还能接受其他(ta)类型的输入(ru)提示,如已(yi)经存在的图像或视频。这使Sora能够执(zhi)行(xing)广泛的图像和视频编辑任务,如创建完美的循环(huan)视频(pin)、将静态图(tu)像转化为动(dong)画、向前或(huo)向后扩展视频等。OpenAI在报告中展示(shi)了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅(jin)证明了Sora的强大(da)功能,还展示了它在图像和视频(pin)编辑领域的无(wu)限潜力(li)。
(4)视频扩展功能:由于可(ke)接受多样化的输(shu)入提示,用户可以根据图像创建(jian)视频或补充现有视频。作为基于Transformer的(de)扩散模型,Sora还能沿时(shi)间线向前或向后扩展视频。
(5)优异的(de)设备适配性:Sora具备(bei)出色的(de)采(cai)样能力,从宽屏的(de) 1920x1080p 到 竖 屏 的1080x1920,两(liang)者之间的任何视频尺寸都能轻松应对。这意(yi)味(wei)着Sora能够为各种设备生成与其原始纵横比(bi)完美(mei)匹配的内容。而在生成(cheng)高(gao)分辨率内容之前,Sora还能以小尺寸迅速创建内容原型。
(6)场景和物体的一(yi)致性和(he)连续性:Sora可以生成(cheng)带有动态视角变化的视频,人物和场景元素在三(san)维空间中的移动会(hui)显得更加自(zi)然。Sora 能够很好地(di)处(chu)理(li)遮挡问题。现有模型(xing)的一个问题是,当物体离开视野时,它们可(ke)能无法(fa)对(dui)其进(jin)行追踪。而通过一次性提供多(duo)帧预测,Sora可确保画面主体即使暂时离开视野也能保持不变。
四、Sora存在的(de)缺点
尽管Sora的功能十分的强大,但其在(zai)模拟复杂场景的物理现象、理解特定(ding)因果关系、处理空(kong)间细(xi)节(jie)、以及(ji)准确描述随时间变化(hua)的事件方面OpenAI Sora都(dou)存在一定的(de)问题(ti)。
在这(zhe)个由Sora生成(cheng)的视频里我们可以看到,整体的画面具有高度(du)的连贯性,画质、细(xi)节、光影和色彩等方面(mian)表(biao)现都非(fei)常的出色,但是当我们仔(zai)细的(de)观(guan)察的时候会发现,在视频中人物的腿部会有一些扭曲,且移动的步伐与整体画面的调(diao)性不相符。
在这(zhe)个视频(pin)里,可以看到(dao)狗的数(shu)量是越来越多的,尽管在这个过程(cheng)中衔接的非常流畅,但(dan)是它可能已经背(bei)离了我们对于这个视(shi)频(pin)最(zui)初始的需求。
(1)物理交互的不准确(que)模拟:
Sora模型在模拟(ni)基本物(wu)理交互,如玻璃(li)破碎等方面,不够精(jing)确。这可能是因(yin)为模型在训(xun)练数据中缺乏(fa)足够的这(zhe)类物理(li)事件的(de)示例,或者模型无法充分学习和理解这些(xie)复杂物理过程的底层原理。
(2)对象状态变(bian)化的不正确:
在模拟(ni)如吃食物这(zhe)类(lei)涉及对象状态显著变(bian)化的(de)交互(hu)时,Sora可能无法始(shi)终正(zheng)确反映出变(bian)化。这(zhe)表明模(mo)型可能在理解和预测对象状态变化的动态过程方面存在局限。
(3)长时视频(pin)样本的不连贯性:
在生成长时(shi)间的视频样本(ben)时,Sora可能(neng)会产生不连贯的情节或细节,这可能是由于模型难以在(zai)长时间跨度内保持上下文的一致性。
(4)对象的突(tu)然出现:
视(shi)频中可能会出(chu)现对象的无缘无故出(chu)现,这表明(ming)模型在(zai)空间(jian)和(he)时(shi)间(jian)连续(xu)性(xing)的理(li)解上还有待提高。
什么是,世界(jie)模(mo)型?我举个例子。
你的“记忆”中,知道一杯(bei)咖啡的重量(liang)。所以当(dang)你想拿(na)起一杯咖啡时(shi),大脑(nao)准确“预测”了应该用多大的(de)力。于是,杯(bei)子(zi)被顺利拿(na)起来(lai)。你都没意识到。但如(ru)果,杯子里碰巧没有咖啡呢?你就会用很大的力,去(qu)拿(na)很轻的杯(bei)子。你的手,立(li)刻能感觉(jue)到不对。然后,你的“记忆”里(li)会加上一条:杯子也有可能是空的。于是,下次再“预测”,就不会错了。你做的(de)事情越多,大脑里就会形成(cheng)越复杂的世界模型(xing),用(yong)于更准确地预测这个世(shi)界的反应。这就是人类(lei)与世界(jie)交互的方式:世界模型(xing)。
用Sora生成的视频,并不总是能“咬就会有痕”。它“有时”也会出(chu)错。但这已经很厉害,很可怕了(le)。因为“先记忆,再预测”,这种理解世界的方式(shi),是人(ren)类理(li)解世界的方式。这种思维模式(shi)就叫做:世界模型。
Sora的技术文档里有一句话(hua):
Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
翻译过来就是:
我们(men)的结果(guo)表明,扩展视频生成模型是向着(zhe)构建通用物理(li)世界模拟器迈进的有希望的路径。
意(yi)思就是说,OpenAI最终想做的,其实不是一个“文生视频”的工(gong)具,而是一个通用的“物理世界模拟器”。也就是世界模(mo)型,为真实世界建模。




