hpcaitech/Open-Sora 全新开源的视频生成模型

Open-Sora 是 ColossalAI 团队开源的视频生成项目,旨在以低成本高效率制作优质视频,通过下一代模型架构实现流畅连贯的时空建模,并提供训练与推理完整流程代码与预训练权重可供下载。自 2025 年 2 月发布 1.3 版至 3 月 12 日推出 2.0 版(11B),在 VBench 与人类偏好测试中与业界先进模型比肩,2.0 版训练成本仅约 20 万美元,极大降低了商业级视频生成门槛。项目遵循 Apache-2.0 协议,拥有 2.6k+ Star、活跃社区持续维护更新,并提供 Hugging Face 在线 Demo 与详细技术报告,覆盖从数据预处理、模型训练到高压缩自编码器实现等全流程指南。

hpcaitech/Open-Sora 全新开源的视频生成模型

官网:https://video.luchentech.com/
源码:https://github.com/hpcaitech/Open-Sora

高级用法

动作评分

在训练过程中,我们会将运动分数输入到文本提示中。在推理过程中,您可以使用以下命令生成带有运动分数的视频(默认分数为 4):

torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --motion-score 4

我们还提供了动态运动得分评估器。设置 OpenAI API 密钥后,您可以使用以下命令评估视频的运动得分:

torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --motion-score dynamic
分数 1 4 7
hpcaitech/Open-Sora 全新开源的视频生成模型 hpcaitech/Open-Sora 全新开源的视频生成模型 hpcaitech/Open-Sora 全新开源的视频生成模型

提示优化

我们利用 ChatGPT 来优化提示。您可以使用以下命令来优化提示。该功能适用​​于文本转视频和图像转视频。

export OPENAI_API_KEY=sk-xxxx
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --refine-prompt True

生殖能力

为了使结果可重复,您可以通过以下方式设置随机种子:

torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --sampling_option.seed 42 --seed 42

用于为每个提示--num-sample k生成样本。k

计算效率

我们在 H100/H800 GPU 上测试了文本转视频的计算效率。对于 256×256 分辨率,我们使用 colossalai 的张量并行,并--offload True使用。对于 768×768 分辨率,我们使用 colossalai 的序列并行。所有分辨率的步数均为 50。结果呈现格式如下:总时间(秒)/峰值 GPU 内存(GB)

解决 1个GPU 2个GPU 4个GPU 8个GPU
256×256 60/52.5 40/44.3 34/44.3
768×768 1656/60.3 863/48.3 466/44.3 276/44.3

Libre Depot(自由仓库)原创文章、发布者:Libre Depot = 转载请注明出处:https://www.libredepot.top/zh/5489.html

(0)
Libre DepotLibre Depot
上一篇 1天前
下一篇 2小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注