Cosmos通用后训练指南自定义数据集上的模型微调技巧【免费下载链接】CosmosNVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.项目地址: https://gitcode.com/GitHub_Trending/cosmos7/CosmosNVIDIA Cosmos是一个为物理AI开发者打造的世界基础模型平台让您能够在自定义数据集上对预训练模型进行微调从而为机器人、自动驾驶汽车、智能基础设施等应用创建更精准的视觉模拟。本文将为您详细介绍Cosmos通用后训练的完整流程和实用技巧什么是Cosmos后训练Cosmos后训练让您能够基于特定领域的数据集对预训练世界基础模型进行微调生成更符合您应用场景的视频内容。无论是针对特定机器人动作、特定工业环境还是特定驾驶场景后训练都能显著提升模型的生成质量和相关性。后训练支持矩阵 Cosmos提供了两种主要模型架构的后训练支持后训练任务扩散模型自回归模型通用后训练✅ 支持✅ 支持指令控制 即将推出 即将推出动作控制 即将推出 即将推出相机控制 即将推出 即将推出多视图生成 即将推出 即将推出准备工作环境搭建1. 系统要求GPU要求推荐使用H100-80GB或A100-80GB GPU容器平台推荐使用Docker与NVIDIA Container Runtime访问令牌需要Hugging Face用户访问令牌2. 克隆仓库并启动容器git clone https://gitcode.com/GitHub_Trending/cosmos7/Cosmos cd Cosmos启动NeMo框架容器docker run --ipchost -it --gpusall \ -v $(pwd):/workspace/Cosmos \ nvcr.io/nvidia/nemo:cosmos.1.0.1 bash3. 下载预训练检查点设置环境变量并下载模型export HF_TOKEN您的HuggingFace访问令牌 export HF_HOME检查点存储路径 python cosmos1/models/diffusion/nemo/download_diffusion_nemo.py数据集准备技巧 视频数据要求格式MP4格式建议720p分辨率内容视频应聚焦于特定主体确保每个视频片段都包含目标主体数量建议准备足够多的视频样本以获得更好的微调效果数据集预处理步骤单主体后训练预处理export RAW_DATAcosmos1/models/diffusion/assets/nemo_diffusion_example_data export CACHED_DATA./cached_data mkdir -p $CACHED_DATA python cosmos1/models/diffusion/nemo/post_training/prepare_dataset.py \ --dataset_path $RAW_DATA \ --output_path $CACHED_DATA \ --prompt A video of sks teal robot. \ --num_chunks 500预处理脚本会生成以下文件[i].info.json视频样本的元数据[i].t5_text_embeddings.pthT5生成的文本嵌入[i].video_latent.pth视频标记器生成的3D时空视频标记扩散模型后训练实战 Text2World模型微调export WANDB_API_KEY您的Wandb API密钥 export WANDB_PROJECT_NAMEcosmos-diffusion-nemo-post-training NVTE_FUSED_ATTN0 \ CUDA_DEVICE_MAX_CONNECTIONS1 \ PYTORCH_CUDA_ALLOC_CONFexpandable_segments:True \ torchrun --nproc_per_node8 cosmos1/models/diffusion/nemo/post_training/general.py \ --yes \ --factory cosmos_diffusion_7b_text2world_finetune \ data.path$CACHED_DATA \ trainer.max_steps1000 \ optim.config.lr1e-6Video2World模型微调torchrun --nproc_per_node8 cosmos1/models/diffusion/nemo/post_training/video2world.py \ --yes \ --factory cosmos_diffusion_7b_video2world_finetune \ data.path$CACHED_DATA \ trainer.max_steps1000 \ optim.config.lr1e-6自回归模型后训练技巧 4B/12B模型预处理export RAW_DATAcosmos1/models/autoregressive/assets/v1p0/batch_inputs export OUTPUT_PREFIX./indexed_videos python cosmos1/models/autoregressive/nemo/post_training/prepare_dataset.py \ --input_videos_dir $RAW_DATA \ --output_prefix $OUTPUT_PREFIX5B/13B模型预处理python3 cosmos1/models/autoregressive/nemo/post_training/video2world_prepare_dataset.py \ --input_jsonl $RAW_DATA/video2world.jsonl \ --output_dir $OUTPUT_PREFIX自回归模型微调命令export NUM_DEVICES2 torchrun --nproc-per-node $NUM_DEVICES cosmos1/models/autoregressive/nemo/post_training/general.py \ --data_path $OUTPUT_PREFIX \ --split_string 4,1,1 \ --log_dir ./logs \ --max_steps 10 --save_every_n_steps 5 \ --tensor_model_parallel_size $NUM_DEVICES \ --model_path nvidia/Cosmos-1.0-Autoregressive-4B关键参数调优指南 ⚙️学习率设置基础学习率1e-6扩散模型5e-5自回归模型调整策略根据训练损失曲线动态调整预热策略建议使用学习率预热批次大小优化全局批次大小根据GPU内存调整微批次大小优化内存使用梯度累积在内存受限时使用训练步数配置最大步数1000步扩散模型10步快速测试保存频率每5-10步保存检查点验证频率定期验证模型性能实用技巧与最佳实践 1. 数据质量至关重要确保视频质量一致避免模糊或抖动的视频保持主体在视频中始终可见2. 提示词工程使用描述性的提示词包含主体名称和场景描述保持提示词格式一致3. 监控训练过程使用Weights Biases进行可视化监控训练损失曲线定期生成验证样本4. 硬件优化使用多GPU并行训练启用激活检查点节省内存优化数据加载管道故障排除与常见问题 内存不足问题# 启用可扩展内存段 PYTORCH_CUDA_ALLOC_CONFexpandable_segments:True # 减少批次大小 --global_batch_size 1 --micro_batch_size 1下载失败问题# 检查Hugging Face令牌 export HF_TOKEN正确的访问令牌 # 设置缓存目录 export HF_HOME/path/to/cache训练不收敛检查学习率是否合适验证数据预处理是否正确确保提示词格式一致后训练模型推理 完成微调后您可以使用后训练模型进行推理# 使用后训练模型进行推理 python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir ./logs \ --diffusion_transformer_dir 您的后训练模型 \ --prompt 您的自定义提示词总结与展望 Cosmos通用后训练为物理AI开发者提供了强大的模型定制能力。通过本文介绍的技巧您可以快速上手在自定义数据集上微调Cosmos模型优化性能调整关键参数获得最佳效果解决问题掌握常见问题的解决方法部署应用将微调模型集成到您的物理AI系统中随着Cosmos平台的不断发展更多后训练任务如指令控制、动作控制等即将推出为物理AI应用开发带来更多可能性记住成功的后训练高质量数据合适的参数耐心调试通过掌握这些技巧您将能够充分利用Cosmos世界基础模型的强大能力为您的物理AI应用创建精准、高效的视觉模拟系统。祝您训练顺利✨【免费下载链接】CosmosNVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.项目地址: https://gitcode.com/GitHub_Trending/cosmos7/Cosmos创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考