Open-Sora-Plan学习资料汇总 - 开源复现Sora的文本到视频生成模型-AI万花筒

Open-Sora-Plan项目简介

Open-Sora-Plan是由北京大学-兔展AIGC联合实验室发起的开源项目,旨在复现OpenAI的Sora文本到视频生成模型。该项目希望通过开源社区的力量,构建一个简单可扩展的代码库,实现Sora的核心功能。

项目的主要特点包括:

完全开源,欢迎社区贡献支持使用华为昇腾AI计算系统进行训练和推理基于昇腾训练的模型可以输出业界水平的视频质量采用3D全注意力架构,可以更好地捕捉时空特征高性能的CausalVideoVAE,具有256倍的视频压缩率支持文本到视频、图像到视频等多种任务

项目资源

代码仓库

GitHub: https://github.com/PKU-YuanGroup/Open-Sora-Plan

模型下载

最新的v1.2.0版本模型可以在Hugging Face上下载:

93x720p模型29x720p模型93x480p模型CausalVideoVAE模型

数据集

Open-Sora-Plan v1.2.0 数据集

使用教程

环境配置

克隆代码仓库:git clone https://github.com/PKU-YuanGroup/Open-Sora-Plancd Open-Sora-Plan安装依赖:conda create -n opensora python=3.8 -yconda activate opensorapip install -e .

推理

推荐配置:

--guidance_scale 7.5 --num_sampling_steps 100 --sample_method EulerAncestralDiscrete

单GPU推理:

bash scripts/text_condition/gpu/sample_t2v.sh

多GPU并行推理:

bash scripts/text_condition/gpu/sample_t2v_sp.sh

训练

文本到视频训练:

bash scripts/text_condition/gpu/train_t2v.sh

图像到视频训练:

bash scripts/text_condition/gpu/train_inpaint.sh

Open-Sora-Plan学习资料汇总 - 开源复现Sora的文本到视频生成模型