丰起云涌、智汇向融

详细内容

Sora待解决的问题与未来的展望

时间:2024-04-10 10:57:15     作者:超级管理员

Sora的不足之处

尽管Sora在视频生成方面展现出了强大的能力,但在模拟复杂场景的物理现象、准确捕捉特定因果关系、精细处理空间细节以及描述随时间变化的事件时,仍存在一些明显的短板。

观看由Sora生成的视频,尽管整体画面连贯,画质、细节、光影和色彩都相当出色,但仔细观察便不难发现,视频中人物的腿部动作有时会显得扭曲,步伐与整体画面的协调性欠佳。

此外,在某些场景中,狗的数量逐渐增多,虽然这一过程在视觉上衔接得相当流畅,但可能并不符合视频初始的设定和意图,从而偏离了用户的期待。

具体来看,Sora的不足之处主要体现在以下几个方面:

(1)物理交互模拟的不精准:Sora在模拟如玻璃破碎等基本物理交互时,常常显得不够逼真。这可能是由于模型在训练过程中缺乏足够的此类物理事件的样本,或者模型对于复杂物理过程的底层原理理解不足。

(2)对象状态变化的误判:当涉及如吃食物等导致对象状态发生显著变化的交互时,Sora有时无法准确捕捉这一变化。这反映出模型在理解和预测对象状态动态变化方面存在局限。

(3)长视频样本的不连贯性:在生成长时间的视频样本时,Sora可能会出现情节或细节上的不连贯,这可能是因为模型在长时间跨度内维持上下文一致性的能力有所欠缺。

(4)对象的突兀出现:视频中有时会出现对象无缘无故地突然出现的情况,这反映出模型在空间和时间连续性理解上的不足。

为了更好地理解Sora的局限性,我们需要引入“世界模型”这一概念。简而言之,世界模型就是大脑对于物理世界的理解和预测机制。例如,我们知道一杯咖啡的重量,因此在拿起杯子时能够准确预测所需的力量。而Sora在生成视频时,虽然大多数情况下能够表现出色,但偶尔也会出错,这正是因为它尚未完全掌握这种基于记忆的预测机制。

在Sora的技术文档中,有这样一句话:“我们的结果表明,扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。”这意味着OpenAI的终极目标并非仅仅打造一个“文生视频”工具,而是希望构建一个能够模拟真实物理世界的通用模拟器,即世界模型。

那么,Sora可能产生哪些影响呢?随着AI自动创作技术的不断发展,未来各行业都将受到深刻影响。特别是在处理热点话题的时效性覆盖方面,AIGC的效率将成为竞争的关键。而像Sora这样的强大AI生产工具,将在这场竞争中发挥重要作用。未来,我们或许能够实现“扔一部小说、出一部大片”的愿景,Sora已经展示了其生成多样化视频的能力,包括一镜到底、多角度切换等,并能够运用各种元素传达情感色彩。

随着多模态模型在2024年达到应用巅峰,影视、直播、媒体、广告、动漫、艺术设计等多个行业都将迎来深刻变革。在当前短视频盛行的时代,Sora已经能够胜任短视频的摄影、导演和剪辑等任务。未来,Sora生成的多样化视频将对各行业产生更深远的影响,降低制作成本,提高创作效率,推动行业的创新与发展。
Snipaste_2024-04-10_10-39-44.png


上海越空之门文化科技有限公司

Shanghai The door Cultural Technology Co.,Ltd

联系热线:400-1514-195 13968059482

商务合作:hanchao@yk3d.com \ hr@yk3d.com

总部地址:上海市奉贤区金海公路6055号11幢5层


扫码关注我们

seo seo