Open AI 发布 Sora 视频生成模型-33台词网

Open AI为狙击谷歌发布了他们的视频生成模型Sora，这个视频模型可以生成长达1分钟的视频，在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。

Sora的视频生成能力：

Sora 能够生成提供图像和提示作为输入的视频。
Sora 还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此，几个视频的开头都不同，但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。
扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法 SDEdit, 32 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048×2048。

Sora还有一些其他的特征：

3D 一致性： Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。
长期连贯性（Long-range coherence）和物体持久性（Object permanence）：是视频生成系统面临的重大挑战之一，特别是在采样长视频时维持时间上的连续性。Sora通常能够有效地处理短期和长期依赖关系，尽管并不总是如此。
与世界互动：Sora 有时可以用简单的方式模拟影响世界状况的行动。例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。
模拟数字世界：Sora同样能够模拟人工过程，例如视频游戏。在Minecraft中，Sora可以同时控制玩家的基本策略，还能高保真度地渲染游戏世界及其动态变化。通过使用提及“Minecraft”的字幕提示Sora，可以实现零样本（Zero-shot）地激发这些能力。

Open AI 还透露了一些训练的大概过程：

将视觉数据转换为Patches：探讨了如何让生成视觉数据的模型继承LLM通过在互联网规模的数据上训练，来获得广泛的能力的优势。不同于LLMs使用文本标记，Sora模型使用了“视觉补丁”（Visual Patches）。之前的研究已经显示，对于视觉数据模型而言，补丁是一种有效的表现形式。我们发现，对于训练多种类型视频和图像的生成模型而言，补丁是一种高效且可大规模扩展的表现形式。
视频压缩网络：训练了一个可以降低视觉数据维度的网络。该网络以原始视频作为输入，并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练，并随后生成视频。还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。
时空潜在Patches：在处理一个压缩后的输入视频时，会提取一系列的“时空补丁”（spacetime patches），这些补丁在这里起到了类似于变换器（Transformer）中的“标记”（tokens）的作用。这种方法同样适用于图像处理，因为从本质上讲，图像就是只有一帧的视频。采用的基于补丁的表示方法，使得Sora能够处理不同分辨率、时长和宽高比的视频和图像。
用于视频生成的Scaling transformers：Sora是一种扩散模型；它主要的作用是，给定输入的带有噪声的补丁（以及如文本提示这样的条件信息），Sora被训练来预测并还原出原始的“干净”补丁。更为关键的是，Sora实际上是一个“扩散变换器”（diffusion transformer）。扩散变换器在视频模型中也能有效扩展。随着训练计算量的增加，样本质量显著提高。

一些关于技术原理的补充阅读：

Open AI官方发布的技术报告，演示视频基本都来自这里：https://openai.com/research/video-generation-models-as-world-simulators
这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释：https://x.com/op7418/status/1758822875707154838?s=20
宝玉关于生成原理比较通俗的解释：https://x.com/dotey/status/1758726880381862000?s=20
Sora所有使用的相关技术对应的论文合集：https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e
JimFan关于Sora训练素材来源的讨论：https://x.com/DrJimFan/status/1758210245799920123?s=20

Open AI 发布 Sora 视频生成模型

谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

相关推荐

评论抢沙发

热门文章

热门标签

谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

相关推荐

评论 抢沙发

热门文章

热门标签

评论抢沙发