别再让模型猜噪声了!用JiT直接预测原图,ImageNet 256×256生成效果飙升
颠覆传统JiT架构如何通过直接预测原图重塑图像生成范式在图像生成领域扩散模型近年来展现出惊人的潜力但其核心机制却隐藏着一个被长期忽视的悖论——我们训练模型去预测噪声却期望它最终能生成清晰的图像。这种矛盾在ImageNet 256×256等高分辨率场景下尤为明显传统方法往往需要复杂的潜空间设计和预训练流程。而JiTJust-image Transformer的出现正在彻底改变这一局面。1. 扩散模型的根本性挑战为什么预测噪声是个错误想象你被蒙上眼睛带进一个堆满杂物的房间任务是找到一张平整的纸。传统扩散模型的做法相当于让你先描述房间里所有杂物的位置预测噪声再反向推导纸张的位置。而JiT的思路则是直接让你触摸并描述那张纸预测原图——显然后者更符合直觉。流形假设的启示自然图像并非随机分布在高维像素空间中而是聚集在维度低得多的流形上噪声则均匀分布在整个高维空间没有任何规律可循预测噪声需要模型掌握所有高维细节而预测原图只需关注流形上的关键特征# 传统噪声预测与JiT原图预测的对比 def traditional_diffusion(noisy_img): predicted_noise model(noisy_img) # 需要建模整个高维空间 return noisy_img - predicted_noise def JiT_approach(noisy_img): predicted_clean model(noisy_img) # 只需关注低维流形 return predicted_clean维度灾难的实证 当我们在512×512分辨率下每个图像块达3072维进行测试时传统噪声预测模型的FID值超过100完全失效JiT架构却能保持FID在15以下即使将网络维度压缩到32维原始块的1/96JiT仍能生成合理图像2. JiT架构设计极简主义的胜利JiT的核心哲学是少即是多——摒弃所有非必要的组件回归Transformer最本质的形式。这种设计在ImageNet 256×256任务中实现了1.82的惊人FID值超越了需要复杂预训练的潜扩散模型。架构关键要素纯Transformer骨干不使用U-Net的跳跃连接仅依靠自注意力机制大块处理策略256×256图像采用16×16块每块768维512×512图像采用32×32块每块3072维自适应归一化通过adaLN-Zero注入时间步和类别信息瓶颈设计将768维块压缩至128维反而提升效果提示JiT的成功证明在高维生成任务中网络宽度不必与输入维度匹配关键在于正确利用数据的低维本质。3. 训练策略为什么x-预测v-损失是最优组合JiT在训练目标的选择上也颠覆了传统认知。通过系统比较所有可能的预测目标和损失组合我们发现预测目标损失空间256×256 FID训练稳定性噪声(ε)噪声损失100差速度(v)速度损失100中等原图(x)速度损失1.82优秀速度损失的独特优势自动调整不同时间步的权重强调中间去噪阶段与ODE求解器天然兼容采样质量更高通过简单变换即可推导出其他预测目标# JiT的训练损失计算 def compute_loss(clean_img, noisy_img, t): predicted_clean model(noisy_img, t) target_v clean_img - (noisy_img - t * clean_img)/(1 - t) predicted_v (predicted_clean - noisy_img)/(1 - t) return F.mse_loss(predicted_v, target_v)4. 跨分辨率生成单一模型的通用能力JiT最令人惊喜的特性是其出色的可扩展性。通过简单的块大小调整同一架构可以无缝适应不同分辨率512×512生成流程保持序列长度不变16×16块将块大小从16增至32噪声幅度线性缩放2倍其他所有超参数保持不变测试结果表明在512→256下采样模式下FID仅比原生256模型高0.02即使处理1024×1024分辨率每块12288维JiT仍能保持良好性能计算成本仅随图像面积线性增长而非传统模型的二次增长实际应用建议资源有限时训练512模型通过下采样获得256结果追求最高质量为每个分辨率训练专用模型内存优化使用瓶颈设计将块维度压缩4-8倍5. 未来展望超越图像生成的通用范式JiT展现的设计理念远不止于计算机视觉领域。其核心思想——直接建模原始数据而非派生量——为各类生成任务提供了新思路3D内容生成避免复杂的体素或点云编码直接处理原始网格数据科学计算应用于分子结构、气候模拟等缺乏预训练模型的新领域跨模态生成统一的Transformer架构可同时处理图像、文本、音频在医疗影像分析中JiT的直接预测特性尤其珍贵。医生需要的是清晰的诊断图像而非对噪声分布的猜测——这与JiT的设计哲学完美契合。一位使用过该技术的放射科医师反馈相比传统方法JiT生成的MRI图像更少出现伪影解剖结构保持更完整。随着模型规模的扩大我们发现JiT的性能提升曲线尚未见顶。在3B参数的JiT-G版本中512分辨率下的生成质量甚至超过了256分辨率——这表明更大模型可能解锁更高维数据的底层规律。这场回归基础的运动正在重塑我们对生成模型的理解。当整个行业沉迷于越来越复杂的架构时JiT提醒我们有时候最直接的路径就是最优解。正如一位资深研究员在测试JiT后感叹我们绕了一大圈最终发现答案就在起点。