基于深度学习的3d人体姿态估计项目 3d姿态估计识别 人体姿态估计
文章目录[toc]1. 项目简介新闻动态2. 论文简介3. 背景及动机3.1 传统 PoseFormer 的优势3.2 PoseFormer 的局限性4. PoseFormerV2 的核心创新4.1 利用频域紧凑表示4.2 时间域与频域特征融合5. 方法细节5.1 频域表示5.2 时间-频域融合6. 实验结果6.1 数据集6.2 实验对比6.3 性能指标1. 项目简介**专注于在处理长输入序列时的效率提升以及对噪声2D关节检测的鲁棒性。其核心创新在于利用频域联合序列表示显著改进了模型的性能。本文已被CVPR 2023接收。arXiv 链接: [点击查看]项目页面: [介绍视频: 点击查看新闻动态[2024.06.16]发布了针对MPI-INF-3DHP数据集的代码和预训练模型详情请 点击此处。[2024.02.06]更新了环境要求并发布了我们在NeurIPS 2023的工作ContextAware-PoseFormer该方法通过单帧视频输入超越了基于序列的模型。[2023.06.16]发布了真实场景视频的代码演示。[2023.05.31]发布了一段带解说的介绍视频点击 此处 查看。[2023.03.28]构建了项目页面内含更多描述及视频演示。[2023.03.31]发布了我们的论文在arXiv上的版本。2. 论文简介PoseFormerV2以PoseFormer为基础针对实际场景中两个主要限制进行了优化限制 1输入关节序列的长度。限制 22D关节检测的质量问题。为解决这些问题PoseFormerV2 利用频域中的紧凑骨架序列表示以高效扩展感受野并增强对噪声2D关节检测的鲁棒性。通过在时域和频域中同时融合特征PoseFormerV2 达到了更优的速度-准确率权衡。3. 背景及动机3.1 传统 PoseFormer 的优势PoseFormer是第一个成功将变换器引入到 2D-to-3D 人体姿态估计任务的模型。其主要优势在于利用变换器对每帧中的人体关节空间关系进行建模。捕获帧间的人体动态信息。3.2 PoseFormer 的局限性尽管性能出色PoseFormer 在以下两个方面存在显著不足输入序列长度的限制PoseFormer 对所有输入帧应用自注意力机制。当帧数增加时计算成本急剧上升从而限制了输入序列的长度。对噪声检测的鲁棒性PoseFormer 的性能容易受到噪声2D关节检测的影响而这种噪声在实际应用中不可避免。4. PoseFormerV2 的核心创新为了解决上述问题PoseFormerV2 提出了以下关键方法4.1 利用频域紧凑表示将长骨架序列映射到频域。在频域中进行处理以减少计算量同时保留关键动态信息。4.2 时间域与频域特征融合在原有 PoseFormer 框架中引入频域特征。通过融合时域和频域特征实现更高效和稳健的特征表达。5. 方法细节5.1 频域表示PoseFormerV2 使用傅里叶变换将骨架序列从时间域转化为频域。具体过程包括输入骨架序列每帧包含一组 2D 关节点。傅里叶变换提取频域特征捕获长序列的全局信息。5.2 时间-频域融合PoseFormerV2 在以下两个阶段结合时域和频域特征特征提取阶段通过频域对全局信息进行高效编码。融合阶段在变换器层中结合时域的局部特征和频域的全局特征。6. 实验结果6.1 数据集PoseFormerV2 在以下两个基准数据集上进行了评估Human3.6M大规模室内人体姿态数据集。MPI-INF-3DHP包含复杂场景和真实世界数据的3D姿态数据集。6.2 实验对比在实验中PoseFormerV2 相比原始 PoseFormer 和其他变换器变体表现出色速度PoseFormerV2 的计算成本更低处理长序列时效率更高。鲁棒性在噪声2D关节检测的情况下PoseFormerV2 保持了更好的性能。6.3 性能指标在Human3.6M数据集上PoseFormerV2 取得了显著更低的误差。在MPI-INF-3DHP数据集上PoseFormerV2 在各种复杂场景下均表现优异。