hpcaitech/Open-Sora 全新开源的视频生成模型

Open-Sora 是 ColossalAI 团队开源的视频生成项目，旨在以低成本高效率制作优质视频，通过下一代模型架构实现流畅连贯的时空建模，并提供训练与推理完整流程代码与预训练权重可供下载。自 2025 年 2 月发布 1.3 版至 3 月 12 日推出 2.0 版（11B），在 VBench 与人类偏好测试中与业界先进模型比肩，2.0 版训练成本仅约 20 万美元，极大降低了商业级视频生成门槛。项目遵循 Apache-2.0 协议，拥有 2.6k+ Star、活跃社区持续维护更新，并提供 Hugging Face 在线 Demo 与详细技术报告，覆盖从数据预处理、模型训练到高压缩自编码器实现等全流程指南。

官网：https://video.luchentech.com/
源码：https://github.com/hpcaitech/Open-Sora

高级用法

动作评分

在训练过程中，我们会将运动分数输入到文本提示中。在推理过程中，您可以使用以下命令生成带有运动分数的视频（默认分数为 4）：

torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --motion-score 4

我们还提供了动态运动得分评估器。设置 OpenAI API 密钥后，您可以使用以下命令评估视频的运动得分：

torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --motion-score dynamic

分数	1	4	7

提示优化

我们利用 ChatGPT 来优化提示。您可以使用以下命令来优化提示。该功能适用于文本转视频和图像转视频。

export OPENAI_API_KEY=sk-xxxx
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --refine-prompt True

生殖能力

为了使结果可重复，您可以通过以下方式设置随机种子：

torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --sampling_option.seed 42 --seed 42

用于为每个提示--num-sample k生成样本。k

计算效率

我们在 H100/H800 GPU 上测试了文本转视频的计算效率。对于 256×256 分辨率，我们使用 colossalai 的张量并行，并--offload True使用。对于 768×768 分辨率，我们使用 colossalai 的序列并行。所有分辨率的步数均为 50。结果呈现格式如下：总时间（秒）/峰值 GPU 内存（GB）