INT4 量化技术(INT4 Quantization)
INT4 量化技术INT4 Quantization是当前大语言模型LLM和前沿 AI 算力领域最火热的“瘦身”技术之一。在模型部署和推理Inference阶段传统的深度学习模型通常使用FP1616位浮点数或BF16来存储权重Weights和激活值Activations。每个参数需要占用 2 个字节的显存。而INT4 量化就是将这些高精度的浮点数压缩映射为只需 4 个位Bit存储的整数。通过这种技术一个原本需要占用2 字节的参数现在只需要0.5 字节显存占用直接暴砍 75%。1. 核心数学原理低比特映射量化的本质是寻找一个映射函数把一个连续的、很大范围的浮点数空间FP16投射到一个离散的、只有 16 个格子的整数空间INT4 的范围是[−8,7][-8, 7][−8,7]或[0,15][0, 15][0,15]。最经典的线性量化Linear Quantization公式如下Xint4clip(round(Xfp16S)Z, −8, 7)X_{int4} \text{clip}\left(\text{round}\left(\frac{X_{fp16}}{S}\right) Z, \, -8, \, 7\right)Xint4clip(round(SXfp16)Z,−8,7)Xfp16≈S×(Xint4−Z)X_{fp16} \approx S \times (X_{int4} - Z)Xfp16≈S×(Xint4−Z)SSSScale缩放因子负责把浮点数的范围等比例缩小。ZZZZero-point零点偏移负责将非对称的浮点数中心对齐到整数。由于 INT4 的表达能力极度有限总共只有 16 个可选值如果对整张权重矩阵只用一个SSS和ZZZPer-tensor 量化会带来灾难性的精度坍塌。因此工业界通常采用Per-group分组量化比如每 128 个连续的权重通道Group Size 128共享一组SSS和ZZZ从而在压缩率和精度之间取得完美平衡。2. 为什么 INT4 是大模型时代的“刚需”在 LLM 推理工程中存在两个核心瓶颈显存容量瓶颈和带宽访存瓶颈Memory-Bound。INT4 完美地击中了这两个痛点① 解锁低端硬件跑大模型的可能以 Llama-3-70B 模型为例FP16 原生状态仅权重本身就需要70B×2 Bytes140 GB70\text{B} \times 2\text{ Bytes} 140\text{ GB}70B×2Bytes140GB显存。你必须至少使用 2 张 A100 (80GB) 或者多张消费级显卡才能把它加载起来。INT4 量化状态权重缩减到70B×0.5 Bytes35 GB70\text{B} \times 0.5\text{ Bytes} 35\text{ GB}70B×0.5Bytes35GB显存。这意味着单张主流消费级显卡如拥有 48GB 显存的 RTX 8000 或轻微裁剪后的 24GB/32GB 环境或单台高性能 Mac就能直接本地流畅运行 70B 级别的神级大模型。② 突破带宽瓶颈大幅提升 Token 生成速度Prefill / Decode在 LLM 的 Decode 阶段生成每一个 Token 都需要把整个模型的权重从显存HBM中读取一遍。这时候 GPU 的算力往往是过剩的时间全浪费在“把数据从显存搬运到计算核心”的过程中即访存受限。使用了 INT4 后网络传输的数据量减少了 75%极大地缓解了总线带宽压力。主控芯片能以接近 4 倍的吞吐量把权重送进核心从而让模型的单用户 Token 输出速度Tokens per Second获得飙升。3. 工业界主流的 INT4 量化算法流派直接把 FP16 暴力四舍五入到 INT4 会导致模型瞬间变“智障”。为了保住模型的“智商”业界在 2024 至 2026 年间演进出了几种经典的 PTQ训练后量化硬核算法流派一AWQActivation-aware Weight-only Quantization由麻省理工学院MIT提出是目前 vLLM、Triton 等高性能推理引擎非常青睐的方案。核心发现模型权重里的所有参数并不是平等的。只有1% 的显著权重Salient Weights对大模型的推理准确率起到了决定性作用这些显著权重通常与激活值中的异常值大通道对应。做法AWQ 并不单独对权重动刀而是通过观察一小段测试文本Calibration set在模型中的激活走势找出那 1% 的关键权重保持它们不被无情量化或者通过缩放保护它们只对剩下 99% 的普通权重进行 INT4 量化。这成功让模型在 4-bit 下保留了极其完美的逻辑推理能力。流派二GPTQGeneralized Post-Training Quantization一种基于高阶数学近似Hessian 矩阵的逐层校准算法。做法它在量化某一层权重时会计算量化带来的误差并动态地去补偿和修正这一层中尚未被量化的其它权重。GPTQ 的量化速度极快且在极端压缩4-bit 甚至 3-bit下展现出了非常强悍的精度鲁棒性。流派三Bitsandbytes (NF4)Hugging Face 官方深度集成的开箱即用方案常用于load_in_4bitTrue的低配显卡微调/QLoRA。NF4NormalFloat 4是一种专门针对正态分布数据设计的非线性量化数据类型。因为深度学习的权重天生呈正态分布NF4 划分的 16 个离散点在中间密集、两端稀疏使得它在 4-bit 空间下对量化误差的捕捉能力显著超越了传统的线性 INT4。4. 混合量化范式W4A16 vs W4A4在看技术文档如 NVIDIA TensorRT-LLM 或 vLLM时你会经常看到这两组缩写它们代表了不同的硬件加速策略W4A16Weight-Only 4-bit当前工程落地最主流的形态。权重Weight在显存里以 4-bit 存储极省显存。但在 GPU 核心Tensor Core准备计算矩阵乘法GEMM的前一刻硬件内部的解码器会实时、动态地将 INT4 权重还原回 FP16然后与高精度的 FP16 激活值Activation进行常规计算。优点完全不破坏激活值的精度模型几乎不掉点完美解决了带宽和显存瓶颈。W4A4纯整数计算权重和激活值全部被量化为 4-bit直接在 GPU 内部调用 INT4 原生 Tensor Core 进行矩阵乘法。优点计算速度获得物理级突破INT4 算力吞吐远高于 FP16。难点由于 LLM 的激活值中存在无法预测的超大异常值Outliers把激活值强行压到 4-bit 极易引发模型前言不搭后语。这通常需要配合极其复杂的平滑技术如 SmoothQuant 的变体才能在特定模型上落地。5. 总结在当前的 LLM 落地大潮中INT4 量化技术是推动大模型走向私有化部署、边缘端PC/手机以及降低企业算力成本的无冕之王。它让开源社区的研发人员能够用极低的硬件门槛玩转千亿参数级别的顶级大模型。