← 返回首页

扩散模型的架构革命:当 Transformer 替换了 U-Net

解析扩散模型架构革命:Transformer 如何取代 U-Net 实现 FID 指标突破,揭示 AI 生成技术新范式。

扩散模型过去几年最经典的配置,是 U-Net 加上一整套为图像生成定制的模块。它有效、稳定,也足够工程化。但这套架构也有一个问题:它太像上一代视觉模型留下来的路径依赖。

Transformer 进入扩散模型之后,真正改变的不是某个指标,而是建模方式。图像不再只是卷积核滑过的二维网格,而可以被拆成一组可以相互注意的 token。模型开始用更统一的方式处理图像、文本和条件信息。

这件事的意义在于,生成模型开始靠近大模型的主干范式。架构统一之后,规模化、数据混合、跨模态训练都会变得更自然。FID 的突破只是表面结果,真正值得关注的是技术栈的收敛。

如果说 U-Net 时代的扩散模型像一台精密的图像机器,那么 Transformer 版本更像一个可扩展的生成系统。前者擅长局部细节,后者押注长期规模化。