Open-Sora 是 ColossalAI 团队开源的视频生成项目,旨在以低成本高效率制作优质视频,通过下一代模型架构实现流畅连贯的时空建模,并提供训练与推理完整流程代码与预训练权重可供下载。自 2025 年 2 月发布 1.3 版至 3 月 12 日推出 2.0 版(11B),在 VBench 与人类偏好测试中与业界先进模型比肩,2.0 版训练成本仅约 20 万美元,极大降低了商业级视频生成门槛。项目遵循 Apache-2.0 协议,拥有 2.6k+ Star、活跃社区持续维护更新,并提供 Hugging Face 在线 Demo 与详细技术报告,覆盖从数据预处理、模型训练到高压缩自编码器实现等全流程指南。
官网:https://video.luchentech.com/
源码:https://github.com/hpcaitech/Open-Sora
高级用法
动作评分
在训练过程中,我们会将运动分数输入到文本提示中。在推理过程中,您可以使用以下命令生成带有运动分数的视频(默认分数为 4):
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --motion-score 4
我们还提供了动态运动得分评估器。设置 OpenAI API 密钥后,您可以使用以下命令评估视频的运动得分:
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --motion-score dynamic
分数 | 1 | 4 | 7 |
---|---|---|---|
![]() |
![]() |
![]() |
提示优化
我们利用 ChatGPT 来优化提示。您可以使用以下命令来优化提示。该功能适用于文本转视频和图像转视频。
export OPENAI_API_KEY=sk-xxxx
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --refine-prompt True
生殖能力
为了使结果可重复,您可以通过以下方式设置随机种子:
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --sampling_option.seed 42 --seed 42
用于为每个提示--num-sample k
生成样本。k
计算效率
我们在 H100/H800 GPU 上测试了文本转视频的计算效率。对于 256×256 分辨率,我们使用 colossalai 的张量并行,并--offload True
使用。对于 768×768 分辨率,我们使用 colossalai 的序列并行。所有分辨率的步数均为 50。结果呈现格式如下:总时间(秒)/峰值 GPU 内存(GB)
解决 | 1个GPU | 2个GPU | 4个GPU | 8个GPU |
---|---|---|---|---|
256×256 | 60/52.5 | 40/44.3 | 34/44.3 | |
768×768 | 1656/60.3 | 863/48.3 | 466/44.3 | 276/44.3 |
Libre Depot(自由仓库)原创文章、发布者:Libre Depot = 转载请注明出处:https://www.libredepot.top/zh/5489.html