100% AI开发的音视频码流分析器

张

张建站

2026/5/21 14:01:04

10分钟阅读

纯GPT 5.5开发的音视频码流分析器前言相关配置项目建立过程目标设计提示词获取增加H264分析高级分析与可视化上传Github结果总结项目地址前言我之前还是很少用AI直接修改代码每次都要跟AI说不要直接修改分析怎么改然后还是自己思考下再去修改。最近偶然要写个小工具用来做IIS 读取然后多通道选择和cpu混音给几个关键read write的实现给GPT给好详细的需求提示词AI从一个空文件夹开始迅速搭建了整个框架得很好让我发现现在的AI写代码的能力强大之处。于是我决定利用AI开发一个大一点的工具看下AI现阶段的能力极限。相关配置AI 模型: GPT 5.5 推理能力中套餐ChatGPT Plus编辑器: VSCode Codex 插件版本控制GitHub项目建立过程目标设计最近我工作上会设计H.264相关的视频编解码和分析工作时常需要对视频码流进行分析。常用的商业工具如 Elecard StreamEye 功能强大但价格昂贵且闭源。因此我决定开发一个开源的音视频分析工具既能满足日常分析需求也能作为一次AI协同编程的实践。整体项目最终要求如下核心功能码流/容器解析支持打开 .h264/.h265/.mp4/.mkv/.ts/.ivf解析帧列表、PTS/DTS、帧类型、GOP、码率、分辨率、Profile/Level。帧级分析显示每帧类型 I/P/B、大小、时间戳、QP、参考帧、slice 信息、关键帧位置。可视化播放/定位左侧帧列表右侧视频帧预览支持逐帧跳转、按 GOP 跳转、搜索关键帧。编码结构可视化显示宏块/CTU 网格、QP 热力图、运动矢量、预测模式、残差信息。Elecard 明确强调可深入到 macroblock / coding unit 级别分析。码流语法树展示 H.264 的 SPS/PPS/Slice Header/NAL UnitHEVC 的 VPS/SPS/PPS/CTU 等字段。质量分析对比原始 YUV 和编码后视频计算 PSNR、SSIM、VMAF、MSE 等指标Elecard 的质量工具支持 PSNR、SSIM、VMAF 等多种指标。其他功能使用Git进行版本管理代码托管于GitHub提供一键打包的安装程序Windows/macOS支持软件内在线更新集成自动化测试Release前必须通过测试用例提供完整的用户文档与开发文档提示词获取先找AI咨询该怎么搭建框架和选取技术栈Elecard StreamEye有哪些功能和特性我要写一个自己的这个软件要怎么提示ai写代码最终架构确定为- 编程语言:C17 - UI框架:Qt6Widgets QOpenGLWidget - 视频解码:FFmpeg - 构建系统:CMake - 平台支持:Windows、macOS、Linux按照AI生成的项目骨架我在空目录中开始搭建基础框架并由AI逐步填充各模块的初始实现。增加H264分析目前还缺少很多功能慢慢更新先完成H264码流的解析让AI增加一个合理的界面和码流分析功能简单丢给ai更新即可高级分析与可视化在基础解析完成后逐步增加宏块网格绘制在图像上叠加显示宏块边界QP热力图基于每个宏块的QP值生成色彩映射运动矢量可视化箭头表示运动方向与幅度 (CABAC 暂不支持)语法树面板以树形控件展示NAL单元的内部结构这部分涉及较多图像处理与自定义绘制AI在算法描述上表现良好但具体实现时需多次迭代和调试。上传Github代码最终要托管到Github开源同时要增加Release发布安装包增加在线同步github release最新代码更新除了开Github仓库其余都是ai完成结果目前界面如下截止20260520功能宏块级分析 : 支持 16x16 宏块网格、QP 热力图、P-slice 运动矢量叠加语法解析 : 完整解析 NALU、SPS、PPS、Slice Header 等关键语法元素位流查看 : 提供十六进制查看器支持语法字段到字节位置的双向导航多层视图 : 帧列表、属性树、日志面板、视频画布等多维度展示测试覆盖 : 包含单元测试和回归测试用例11个测试固件持续集成 : GitHub Actions 自动化构建和测试发布流程 : 完善 Windows 便携包和安装程序生成文档完善 : 详细的开发文档、部署说明和路线图交互友好 : 支持拖放文件、帧级控制、叠加层透明度调节持久化设置 : 自动保存窗口布局、最近文件等用户配置导出功能 : 支持 JSON、CSV、截图等多种导出格式错误处理 : 对畸形码流有结构化诊断而非崩溃缺陷CABAC 未支持 : 仅支持 CAVLC 熵编码CABAC 编码的码流无法分析B 帧运动矢量不完整 : B_Direct、B_8x8 等子宏块模式未解析高级特性缺失 : MBAFF宏块自适应帧场编码、FMO灵活宏块排序等特性未支持残差系数未暴露 : 虽然统计了残差块数量但具体的系数值未在 UI 中展示编解码器支持单一 : 主要是 H.264HEVC 仅有骨架AV1、VP9 等现代编解码器未支持音频分析薄弱 : AAC/MP3 仅有基础解析缺乏深度分析容器分析不足 : 缺少容器级别的详细分析如 MP4 box 结构、TS 包分析等缺少质量评估 : 无 PSNR、SSIM、VMAF 等质量指标计算大文件处理 : 缺少大文件索引缓存长时间码流可能性能不佳内存管理 : 解码帧缓存和语法缓存策略不够明确并发处理 : 缺少后台解析队列复杂分析可能影响响应性统计分析 : 缺少 QP 分布、比特率曲线、GOP 结构等统计图表对比功能 : 无法对比不同编码参数或不同编码器的输出自动化分析 : 无 CLI 模式无法集成到 CI/CD 流程批量处理 : 不支持批量文件分析和报告生成API 文档 : 缺少详细的 API 文档和开发者指南总结目前AI写这种规模的项目已经很好用了,但是随着软件规模和功能的深入GPT Plus已经不太够了基本上问几个问题就到了5小时的使用上限需要更多使用量的ai才能更加快速开发项目地址欢迎大家下载使用反馈意见我将会丢给AI黑奴更新(bushi)ZStreamEye-Github

模型预测控制工具箱终极指南：从零开始掌握鲁棒控制与移动地平线估计

模型预测控制工具箱终极指南：从零开始掌握鲁棒控制与移动地平线估计【免费下载链接】do-mpc Model predictive control python toolbox 项目地址: https://gitcode.com/gh_mirrors/do/do-mpc do-mpc 是一个功能强大的开源 Python 工具箱，专门用于…...

2026/5/21 13:54:04 阅读更多 →

Unity AI 编程（VS Code + Cline + DeepSeek-V4）【+1】

Unity AI 编程操作流演示（VS Code + Cline + DeepSeek-V4-Pro）目标：通过 AI 直接在 Unity 项目内进行代码修改与功能迭代，实现“让 AI 进入工程并完成修改”，而不是仅输出代码片段供手动复制。 Unity AI 编程操作流：步骤一：在 Assets 目录下创建名为 “C# Scripts” 的…...

2026/5/21 13:47:04 阅读更多 →

3个真实场景告诉你：为什么你需要用手机制作USB启动盘？

3个真实场景告诉你：为什么你需要用手机制作USB启动盘？ 【免费下载链接】EtchDroid An application to write OS images to USB drives, on Android, no root required. 项目地址: https://gitcode.com/gh_mirrors/et/EtchDroid 想象一下这样的场景…...

2026/5/21 13:46:01 阅读更多 →