2025年ICLR会议上,清华大学电子工程系和微软研究院联手给世界带来了一项重磅突破——蒸馏解码(Distilled Decoding,简称DD)技术。这个创新直接把自回归模型在图像生成方面的速度推到了前所未有的高度。所谓自回归模型,以前就像一个严谨的画家,得一笔一画地慢慢把图画完。现在DD让这位画家学会了“一口气”把整个画面画完,既保证了细节精致,又大大提高了干活的效率。 以前那些自回归模型干活可费劲了,得一个像素一个像素地抠。比如现在很先进的LlamaGen模型,要生成一张256×256像素的图,就得走256步,耗时差不多5秒钟。清华团队这次提出了一个听起来不可能完成的任务:能不能在不损失画质的情况下,把这256步压缩成1步?经过死磕技术难题,团队居然做到了!DD的诀窍就在于把自回归模型和流匹配技术结合起来用。流匹配技术就像架起了一座桥梁,在高斯噪声分布和目标图像分布之间建起了一个固定的通道,让生成过程变得既快又准。 靠着这个法子,研究人员训练出了一个神经网络,能直接把乱七八糟的噪声序列变成完整的图像序列,完全不用再走那种慢吞吞的逐步绘制流程。实验结果简直是炸了锅:在VAR模型上,DD硬是把生成步数从10步砍成了1步,速度翻了6.3倍;在LlamaGen上更是夸张,直接提升了217.8倍,把256步变成1步。虽然FID指标(图像质量标准)也跟着从4.11涨到了11.35,但这速度提升的威力已经大得惊人。 这个成果不仅让技术界都吓了一跳,也让实际应用看到了新希望。DD的灵活性也是一大亮点。它不像以前那样非得固定步数生成,用户可以自己挑步数:想要快点出图就用1步模式;想要质量更高就用2步甚至更多步数。这种能自由选配置的特性,让它在现实中用起来更顺手。 从更宏观的角度看,DD这一招彻底颠覆了大家对自回归模型必然慢的固有认知,证明了只要动动脑筋搞技术创新,完全能在不损失质量的前提下把速度提上去。研究团队还琢磨了一下怎么跟原来的模型搭配使用:先让DD生成个大概框架,再对某些区域进行精细打磨,这样就能找到速度和质量的平衡点了。 当然DD也不是十全十美的现在主要还是在图片生成这块下功夫,至于做文本之类的别的活儿还得接着研究。但不管怎么说,这次成功给以后设计更高效的AI模型提供了宝贵的经验。 总的来说蒸馏解码技术这一仗打得漂亮,不光是技术层面有了大突破,也给自回归模型的发展指了条明路。随着技术不断完善这项技术很可能会给图像创作还有内容生产这些领域带来翻天覆地的变化。 想了解更详细的技术细节?论文编号arXiv:2412.17153v3就在这里。