Sora六大优势剖析

时间：2024-04-10 10:56:51 作者：超级管理员

据《每日经济新闻》记者梳理的报告，Sora的六大优势赫然在目：

（1）精准与多样并存：Sora能够将简短的文本描述转化为长达1分钟的高清视频。它精准地解读用户输入的文本，并生成涵盖人物、动物、风景、城市、花园乃至水下纽约市等多样主题的高质量视频剪辑。据Medium报道，Sora甚至能够准确解释长达135个单词的长提示。

（2）卓越的语言理解力：OpenAI利用Dall·E模型的recaptioning技术生成描述性字幕，这不仅提高了文本的准确性，还提升了视频的整体质量。与DALL·E 3相似，GPT技术也被用于将简短的用户提示转化为更详尽的转译，进而发送给视频模型。这使得Sora能够精确地按照用户提示生成高质量视频。

（3）图像与视频间的灵活转换：除了将文本转化为视频，Sora还能接受图像或视频作为输入提示。这使得Sora能够执行从创建完美循环视频到将静态图像转化为动画等广泛的图像和视频编辑任务。OpenAI在报告中展示的基于DALL·E 2和DALL·E 3的图像生成的demo视频，充分证明了Sora的强大功能和在图像视频编辑领域的巨大潜力。

（4）强大的视频扩展功能：由于可接受多样化的输入提示，Sora能够根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型，它还能沿时间线向前或向后扩展视频内容。

（5）出色的设备适配性：Sora拥有卓越的采样能力，能够轻松应对从1920x1080p的宽屏到1080x1920的竖屏等各种视频尺寸。这意味着无论是哪种设备，Sora都能为其生成完美匹配原始纵横比的内容。更值得一提的是，在生成高分辨率内容之前，Sora还能迅速以小尺寸创建内容原型。

（6）场景与物体的连贯性：Sora生成的视频中，人物和场景元素在三维空间中的移动显得自然流畅。它能很好地处理遮挡问题，确保即使物体暂时离开视野，画面主体也能保持连续性和一致性。通过一次性提供多帧预测，Sora确保了画面主体在视野内外的稳定展现。