009 AAC音频格式
AACAdvanced Audio Coding高级音频编码是由Fraunhofer IIS、杜比实验室、ATT、Sony 等行业机构与企业联合研发的有损感知音频编码格式。AAC的出现是为了解决MP3格式在压缩效率、多声道支持、高频还原度等方面的技术瓶颈以达到在同等音质条件下实现比MP3更小的文件体积在同等体积下实现更优异的音质。AAC 技术的标准化历程主要分为两个主要阶段※ MPEG-2 AAC阶段1997年国际标准化组织ISO下属的动态图像专家组MPEG正式发布了AAC的首个官方标准— ISO/IEC 13818-7该版本定义了AAC的基础编码架构覆盖了当时主流的双声道立体声场景以及有限的多声道支持能力。※ MPEG-4 AAC 阶段2000年MPEG-4标准正式推出AAC技术标准也随之完成重大版本迭代。该版本通过集成 SBR频段复制、PS参数立体声等新增技术不仅优化了低比特率下的音质表现还提升了对立体声和多声道环绕声的编码效率。AAC仍然是基于感知编码的有损音频编码技术是在 “人耳听觉无法察觉音质损伤” 的约束下最大限度地去除音频信号中的听觉冗余数据从而实现更高的压缩比。与 MP3 相比AAC的技术架构进行了全方位的精细化迭代其核心技术优势主要集中在四个维度更精准的心理声学模型、更高分辨率的MDCT变换滤波器组、更灵活的信号噪声整形技术、以及可根据频谱特性动态切换的编码工具组合。在这些技术模块的协同作用下 AAC在压缩效率和音质表现上已全面超越了MP3。从技术实现层面上看AAC的感知编码流程是基于三个逐层递进的核心技术维度覆盖了从听觉特性分析到压缩结果输出的全流程※ 临界频带划分与掩蔽阈值计算AAC的心理声学模型会先将输入的全频段音频信号按照人耳的听觉感知特性划分为一系列非均匀宽度的临界频带这一划分机制就是完全模拟了人耳耳蜗基底膜对不同频率声音的响应特性即对人耳敏感度更高的低频段临界频带的划分密度更高、带宽更窄对人耳敏感度较低的高频段临界频带的划分密度更低、带宽更宽。随后模型会综合音频信号在各个临界频带内的能量分布、人耳的绝对听敝阈值、同时掩蔽和短时掩蔽效应等多维度参数精准计算出每个临界频带的掩蔽阈值。※ 频谱分量的选择性舍弃在完成掩蔽阈值的计算后编码器会对音频信号的各个频谱分量进行筛选对于那些能量强度低于对应掩蔽阈值的频谱分量编码器会直接进行舍弃处理而对于能量高于掩蔽阈值的频谱分量编码器则会将其保留以进行后续的精细化量化处理。※ 量化噪声的精准控制在对保留的频谱分量进行量化处理时编码器会通过尺度因子调整技术将量化产生的随机噪声功率严格控制在每个临界频带的掩蔽阈值以下这样量化噪声就会被音频信号本身的能量完全掩盖人耳无法分辨出压缩后的音频与原始无压缩音频之间的主观音质差异。这一整套 “分析 - 筛选 - 控制” 的闭环技术流程是AAC在压缩效率和音质表现上同时取得突破的核心技术也是其技术性能远优于MP3的底层逻辑。为了覆盖从低比特率语音通信到高保真多声道音乐的不同场景需求AAC标准定义了多种不同的技术规格。这些技术规格在编码工具组合、算法复杂度、适配码率范围上存在显著差异。目前常用的规格有※ LC-AAC低复杂度规格Low ComplexityLC-AAC是AAC家族中最基础、最常用的技术规格。该规格是在中等码率区间内实现编码效率与音质表现的完美平衡。它的技术架构相对简单没有使用增益控制等复杂编码工具仅保留了核心的MDCT变换、心理声学模型、TNS、霍夫曼编码等基础技术模块大幅降低了编码和解码的算法复杂度。可以在算力水平较低的硬件平台上实现快速解码且功耗极低编码延迟时间也被控制在较低水平足以覆盖大部分的实时流媒体场景的需求。LC-AAC 的适配码率范围覆盖了从96kbps 到 192kbps 的中等码率区间在这一区间内其音质表现明显优于采用LAME最高质量慢速编码模式的同码率MP3格式。正是这一技术优势使其成为了业界的主流选择几乎所有的移动设备、车载音响、智能音箱的硬件解码模块都对这一规格实现了原生优化支持也是 iOS、安卓和 Windows 平台上默认的有损音频编码格式。LC-AAC最高支持 48kHz采样率最高支持5.1环绕声默认采用霍夫曼熵编码方式在192kbps码率下其音质表现基本达到了 “透明音质” 的水平。※ HE-AAC v1高效 AACHigh Efficiency v1HE-AAC v1 规格是在基础的LC-AAC技术架构之上额外集成了SBR频段复制技术的增强型编码规格。这一技术规格的设计目标是专门优化低比特率场景下的音质表现即通过 “低频单独编码、高频频段复制” 的差异化编码策略在不增加码率的前提下保留足够的高频细节。这就使得HE-AAC v1 在低比特率场景下的音质表现显著优于传统的LC-AAC格式。HE-AAC v1的码率覆盖了从48kbps 到64kbps的低比特率区间可以提供比 LC-AAC更清晰的高频细节。该规格是主要应用于低带宽场景下比如数字音频广播DAB、网络音乐的低音质在线播放、移动端流量受限条件下的音频传输、实时语音通信等场景都是这一技术规格的核心应用场景。该规格最高支持48kHz采样率默认采用霍夫曼熵编码方式。在64kbps的低比特率下其音质表现基本可以达到中码率MP3格式的水准部分采用了先进SBR技术实现的 HE-AAC v1 编码器甚至可以在低至 32kbps 的比特率条件下提供可接受的音质。※ HE-AAC v2高效 AAC v2High Efficiency v2HE-AAC v2是目前AAC家族中压缩效率最高的技术规格。它是在HE-AAC v1的基础上额外增加了PS参数立体声技术模块实现了对立体声信号编码效率的进一步大幅优化。这一技术架构让HE-AAC v2在低比特率场景下的立体声编码效率几乎翻倍。HE-AAC v2 的码率范围与HE-AAC v1完全一致在这一码率区间内它的立体声音质表现与 HE-AAC v1格式的单声道音质表现完全一致。该规格同样是应用在低带宽场景下比如立体声数字音频广播DAB、低带宽条件下的立体声音乐流媒体播放、移动端语音会议场景等。 该规格最高支持48kHz采样率采用参数立体声编码技术默认采用霍夫曼熵编码方式在 64kbps 的比特率条件下它的立体声音质表现优于同码率的MP3格式在部分对音质要求不高的场合可以在低至 32kbps的比特率条件下提供可接受的立体声音质。※ AAC LD低延迟规格Low DelayAAC LD是AAC家族中专门针对实时通信场景设计的特殊编码规格。它是在保证足够音质表现的前提下最大限度降低编码算法的延迟。该规格是在基础的LC-AAC架构之上进行了专门的延迟优化设计采用了缩短到原来的1/3的MDCT变换块长度、减少了编码帧的重叠区域、优化了编码器的比特池缓冲机制将整个编码算法的延迟时间严格控制在10 毫秒以内此外为了在低延迟条件下保证音质还支持使用算术编码作为熵编码方式。AAC LD的适配码率范围覆盖了64kbps到192kbps的中低比特率区间。AAC LD主要应用在对实时性要求苛刻的场景下比如双向实时语音通信、在线音乐合奏场景、网络会议系统、实时流媒体互动直播场景等。该规格最高支持48kHz采样率支持单声道或立体声编码默认采用算术熵编码方式在192kbps码率下其音质表现与同码率的 LC-AAC 格式完全一致这一算法延迟指标完全符合国际电信联盟ITU对实时通信场景的音频延迟标准要求。※ 几种不常用的AAC规格除了上述四类最常用的技术规格之外AAC 标准中还定义了其它几类适配特殊场景的技术规格MPEG-4 AAC Main(主规格)包含了除增益控制之外的全部 AAC 技术工具模块是所有 AAC 技术规格中音质表现最好的规格编码效率也优于 LC-AAC但由于其算法复杂度较高对设备的解码算力需求也更高因而主要被应用在对音质有极致要求、且对文件体积约束相对宽松的专业级音频分发场景中。MPEG-4 AAC LTP(长时期预测规格)在基础的 LC-AAC 架构之上额外增加了长时期预测LTP技术模块可以对音频信号的频谱变化趋势进行长时期的预测编码进一步提升了压缩效率。它主要被应用在对压缩效率有较高要求的专业级音频存储场景中。MPEG-4 AAC SSR(可变采样率规格)支持在编码过程中动态调整采样率可以根据音频信号的实际频谱特性实时选择最合适的采样率在保证音质表现的前提下进一步压缩文件体积。