sora概念探秘

时间：2024-04-10 10:53:37 作者：超级管理员

一、Sora概念探秘

2024年2月16日，全球科技圈迎来了一场震撼——OpenAI重磅发布了“文生视频”大模型工具Sora。这款工具凭借自然语言描述生成视频的能力，让AI视频制作的高度再创新高。对比之前诸如Runway Pika等文生视频工具在连贯性方面的短暂突破，Sora直接跃升到了能够生成长达60秒的一镜到底视频，这还是在它尚未正式发布的情况下。

Sora之名，源于日文中象征无限广阔天空的“空”（そら），寓意着其无尽的创造潜能。

从这张图便可一窥Sora对同类工具的强大冲击力。

与其他AI视频模型相比，Sora的显著优势在于其既能精准展现细节，又能深刻理解物体在物理世界中的存在，并能生成情感丰富的角色。更神奇的是，它还能根据提示、静止图像，甚至填补现有视频中的缺失帧来生成视频。

二、Sora实现路径解读

Sora在AI驱动内容创作领域具有里程碑意义，它推动了AIGC在该领域的上限。在此之前，诸如ChatGPT等文本类模型已开始辅助内容创作，包括插图和画面的生成，甚至涉足虚拟人制作短视频。而Sora则专注于视频生成，是一款大模型工具，它通过输入文本或图片，以多种方式编辑视频，包括生成、连接和扩展，属于多模态大模型的范畴。这类模型在GPT等语言模型的基础上进行了深化和拓展。

Sora处理视频的方式与GPT-4处理文本令牌的方式相似，它将视频帧视为补丁序列，这些补丁序列类似于语言模型中的单词令牌，从而有效管理各种视频信息。结合文本条件生成技术，Sora能够生成与文本提示上下文相关且视觉上连贯的视频。

在技术上，Sora主要通过三个步骤实现视频训练：首先是视频压缩网络，将视频或图片转化为高效紧凑的形式；其次是时空补丁提取，将视图信息分解成更小的单元，每个单元包含部分空间和时间信息，为后续的处理提供便利；最后是视频生成，通过解码加码输入的文本或图片，由Transformer模型（即ChatGPT的基础转换器）决定如何组合或转换这些单元，从而生成完整的视频内容。

总的来说，Sora的出现将极大地推动AI视频生成和多模态大模型的发展，为内容创作领域带来前所未有的可能性。

上一篇Sora概念板块跌幅达3%下一篇Sora六大优势剖析

标题

新闻中心
公司新闻
技术文章

上海越空之门文化科技有限公司

Shanghai The door Cultural Technology Co.,Ltd

联系热线：400-1514-195 13968059482

商务合作：hanchao@yk3d.com \ hr@yk3d.com

总部地址：上海市奉贤区金海公路6055号11幢5层

扫码关注我们