丰起云涌、智汇向融

详细内容

sora概念探秘

时间:2024-04-10 10:53:37     作者:超级管理员

一、Sora概念探秘

2024年2月16日,全球科技圈迎来了一场震撼——OpenAI重磅发布了“文生视频”大模型工具Sora。这款工具凭借自然语言描述生成视频的能力,让AI视频制作的高度再创新高。对比之前诸如Runway Pika等文生视频工具在连贯性方面的短暂突破,Sora直接跃升到了能够生成长达60秒的一镜到底视频,这还是在它尚未正式发布的情况下。

Sora之名,源于日文中象征无限广阔天空的“空”(そら),寓意着其无尽的创造潜能。

从这张图便可一窥Sora对同类工具的强大冲击力。

与其他AI视频模型相比,Sora的显著优势在于其既能精准展现细节,又能深刻理解物体在物理世界中的存在,并能生成情感丰富的角色。更神奇的是,它还能根据提示、静止图像,甚至填补现有视频中的缺失帧来生成视频。

二、Sora实现路径解读

Sora在AI驱动内容创作领域具有里程碑意义,它推动了AIGC在该领域的上限。在此之前,诸如ChatGPT等文本类模型已开始辅助内容创作,包括插图和画面的生成,甚至涉足虚拟人制作短视频。而Sora则专注于视频生成,是一款大模型工具,它通过输入文本或图片,以多种方式编辑视频,包括生成、连接和扩展,属于多模态大模型的范畴。这类模型在GPT等语言模型的基础上进行了深化和拓展。

Sora处理视频的方式与GPT-4处理文本令牌的方式相似,它将视频帧视为补丁序列,这些补丁序列类似于语言模型中的单词令牌,从而有效管理各种视频信息。结合文本条件生成技术,Sora能够生成与文本提示上下文相关且视觉上连贯的视频。

在技术上,Sora主要通过三个步骤实现视频训练:首先是视频压缩网络,将视频或图片转化为高效紧凑的形式;其次是时空补丁提取,将视图信息分解成更小的单元,每个单元包含部分空间和时间信息,为后续的处理提供便利;最后是视频生成,通过解码加码输入的文本或图片,由Transformer模型(即ChatGPT的基础转换器)决定如何组合或转换这些单元,从而生成完整的视频内容。

总的来说,Sora的出现将极大地推动AI视频生成和多模态大模型的发展,为内容创作领域带来前所未有的可能性。


上海越空之门文化科技有限公司

Shanghai The door Cultural Technology Co.,Ltd

联系热线:400-1514-195 13968059482

商务合作:hanchao@yk3d.com \ hr@yk3d.com

总部地址:上海市奉贤区金海公路6055号11幢5层


扫码关注我们

seo seo