在当今内容创作爆炸式增长的时代短视频已经成为信息传播的主流形式。然而高质量视频的制作往往需要专业的剪辑技能、昂贵的设备和大量的时间投入。AIDC-AI团队推出的Pixelle-Video项目正是为了解决这一痛点而生——它是一个基于人工智能的全自动短视频生成引擎让视频创作从复杂的技术活变成了简单的“一句话”任务。项目概览从零到一的视频创作革命Pixelle-Video是一个开源的全自动短视频生成引擎其核心理念是将传统视频制作中的多个环节——文案创作、图像/视频生成、语音合成、背景音乐匹配和最终剪辑——整合为一条端到端的自动化流水线。用户只需要输入一个主题关键词系统就能自动完成从文案撰写到视频合成的全过程真正实现了“零门槛、零剪辑经验”的视频创作体验。该项目采用Apache 2.0开源协议目前已在GitHub上获得超过4,000颗星标拥有656个分支显示出强大的社区影响力和技术认可度。项目支持中文和英文两种语言界面提供了完整的文档和视频教程让用户能够快速上手。项目开源地址https://github.com/AIDC-AI/Pixelle-Videohttps://github.com/AIDC-AI/Pixelle-Video技术架构模块化设计的智能流水线Pixelle-Video的技术架构采用了高度模块化的设计思路整个视频生成流程被清晰地划分为四个相互独立又紧密衔接的阶段每个阶段都支持灵活的定制和扩展。第一阶段智能文案生成视频创作的第一步是内容构思Pixelle-Video通过大语言模型LLM自动完成这一任务。系统支持多种LLM模型包括通义千问、GPT-4o、DeepSeek、Ollama本地模型等用户可以根据自己的需求和预算选择合适的模型。当用户输入主题关键词后LLM会自动生成适合视频解说的文案并将文案智能地拆分成多个“分镜”——每个分镜对应视频中的一个画面段落这种分镜思维是专业视频制作的标准做法现在由AI自动完成。第二阶段视觉素材生成文案拆分成分镜后系统会为每个分镜生成对应的视觉素材。这是Pixelle-Video架构中最具技术含量的部分它深度集成了ComfyUI工作流引擎。ComfyUI是当前流行的开源AI图像和视频生成平台采用节点式、模块化的可视化工作流设计可以将其想象成一个“AI创作的流水线车间”。Pixelle-Video通过ComfyUI的API接口调度图像生成任务默认使用FLUX模型通过image_flux.json工作流生成静态图片。但系统的强大之处在于其可扩展性——用户完全可以替换为Stable Diffusion XL、Midjourney风格的模型甚至使用WAN 2.1通义万相2.1这样的视频生成模型来直接生成动态视频片段。这种基于ComfyUI的可插拔架构让Pixelle-Video能够跟上AI图像生成技术的最新发展。第三阶段语音合成视觉素材准备好之后下一步是将文案转化为有声解说。Pixelle-Video在语音合成环节同样采用了可插拔的设计支持多种TTS文本转语音方案。目前主要支持Edge-TTS、Index-TTS等主流方案其中Edge-TTS通过Python异步调用微软Azure的在线TTS服务提供免费、稳定、自然度高的语音合成支持上百种语言和声音角色Index-TTS则由哔哩哔哩开源最大的特点是支持声音克隆能力。语音合成的结果是为每个分镜生成对应的音频文件音频时长直接决定了该分镜在最终视频中的展示时长。用户还可以上传参考音频进行声音克隆实现个性化的语音效果。第四阶段视频合成与模板系统最后一个阶段是把前面生成的所有素材——配图/视频片段、语音音频、背景音乐——合成为一条完整的视频。系统会按照分镜顺序将每一帧的视觉素材与对应的语音音频对齐再叠加用户选择的背景音乐会自动调低BGM音量以突出人声最后使用FFmpeg将所有轨道混合输出为标准MP4视频文件。Pixelle-Video的视频模板系统是其另一个亮点。模板本质上是HTML文件通过浏览器渲染引擎生成每一帧的画面。模板按命名规则分为三类static_.html是纯文字动效模板不需要AI生成图像image_.html是图片背景模板AI生成的图片作为画面背景video_*.html是视频背景模板使用AI生成的动态视频作为背景。模板还按照画面比例分为竖屏适合抖音、快手、横屏适合B站、YouTube和方形适合社交媒体信息流三种尺寸。核心功能亮点超越传统视频工具的能力Pixelle-Video的功能设计体现了对用户需求的深刻理解和技术实现的巧妙平衡。首先它实现了真正的全自动生成用户只需输入主题系统就能自动完成从文案到成片的全部流程。其次AI智能文案功能根据主题智能创作解说词无需用户自己写脚本大大降低了创作门槛。在视觉方面系统支持AI生成配图和视频每句话都能配上精美的AI插图或动态视频内容。语音合成支持多种TTS方案包括声音克隆等高级功能。背景音乐的智能添加让视频更有氛围而多种视觉风格模板则能打造独特的视频风格。系统的灵活性体现在多个维度支持竖屏、横屏等多种视频尺寸适应不同平台的发布需求支持多种AI模型用户可以根据自己的技术栈和预算选择最重要的是原子能力的灵活组合基于ComfyUI架构用户既可使用预置工作流也可自定义任意能力如替换生图模型为FLUX、替换TTS为ChatTTS等。实际应用场景与效果展示从实际应用角度看Pixelle-Video最适合知识科普类短视频、产品介绍类短视频以及批量生产同类型视频的需求。项目文档中展示了丰富的视频示例包括人文纪实类、文化解构类、科学思辨类、个人成长类、深度思考类、历史文化类、情感类、小说解说类、知识科普类等多种主题。这些视频都是通过输入一个主题关键词由AI全自动生成的无需任何视频剪辑经验。例如输入“为什么要养成阅读习惯”系统会自动生成一段3-5个分镜的科普解说词为每句话生成对应的配图用AI语音读出文案加上合适的背景音乐最终合成一条完整的短视频。近期更新还加入了数字人口播、动作迁移等前沿功能。数字人口播功能支持生成虚拟人物讲解视频动作迁移功能允许用户上传参考视频和图片进行动作迁移进一步扩展了创作可能性。部署与使用从新手到专家的完整路径Pixelle-Video提供了多种部署方式满足不同用户的需求。对于Windows用户官方提供了一键整合包无需安装Python、uv或FFmpeg下载解压后直接运行这是对新手最友好的方式。对于macOS/Linux用户或有自定义需求的用户可以从源码安装需要安装Python 3.10、uv包管理器和FFmpeg。无论选择哪种部署方式用户都需要准备一个大语言模型的API Key来驱动文案生成环节。目前可选的方案包括完全免费方案LLM使用Ollama本地运行ComfyUI本地部署、推荐方案LLM使用通义千问ComfyUI本地部署和云端方案LLM使用OpenAI图像使用RunningHub。首次使用需要在Web界面中配置LLM和图像生成服务。LLM配置支持快速选择预设模型或手动配置图像配置支持本地ComfyUI部署或云端RunningHub服务。配置完成后用户就可以开始生成视频了。进阶玩法与自定义扩展Pixelle-Video真正的强大之处在于其基于ComfyUI的可扩展架构。如果用户对ComfyUI有一定了解可以通过自定义工作流来解锁更多玩法。例如用户可以创建自定义的图像生成工作流替换默认的FLUX模型为其他模型可以创建自定义的TTS工作流集成ChatTTS、CosyVoice等TTS模型还可以创建自定义的视频模板利用HTMLCSS技术实现独特的视觉效果。对于希望深入探索AI视频生成技术的用户项目还提供了对WAN 2.1通义万相2.1视频生成模型的深度支持。WAN 2.1是阿里通义实验室推出的视频生成模型在VBench评测榜单上表现突出采用DiTDiffusion in Transformer架构将扩散模型的生成能力与Transformer的序列处理能力相结合。总结与展望Pixelle-Video作为一个开源的全自动短视频生成引擎在技术实现、用户体验和社区生态方面都表现出色。它通过巧妙的架构设计将复杂的视频制作流程简化为“输入主题输出视频”的极致体验同时保持了足够的灵活性和扩展性让用户可以根据自己的需求进行定制。随着AI技术的不断发展视频生成的质量和效率还将持续提升。Pixelle-Video的模块化架构为未来的技术升级提供了良好的基础无论是新的图像生成模型、更自然的语音合成技术还是更智能的视频编辑算法都可以相对容易地集成到现有系统中。对于有兴趣探索AI视频创作的开发者和内容创作者来说Pixelle-Video是一个值得投入时间学习和使用的优秀项目。它不仅提供了一个实用的工具更展示了一种将复杂任务分解、自动化、集成化的思维方式这种思维方式在AI时代具有普遍的应用价值。