扩散模型的架构革命：当 Transformer 替换了 U-Net

扩散模型过去几年最经典的配置，是 U-Net 加上一整套为图像生成定制的模块。它有效、稳定，也足够工程化。但这套架构也有一个问题：它太像上一代视觉模型留下来的路径依赖。

Transformer 进入扩散模型之后，真正改变的不是某个指标，而是建模方式。图像不再只是卷积核滑过的二维网格，而可以被拆成一组可以相互注意的 token。模型开始用更统一的方式处理图像、文本和条件信息。

这件事的意义在于，生成模型开始靠近大模型的主干范式。架构统一之后，规模化、数据混合、跨模态训练都会变得更自然。FID 的突破只是表面结果，真正值得关注的是技术栈的收敛。

如果说 U-Net 时代的扩散模型像一台精密的图像机器，那么 Transformer 版本更像一个可扩展的生成系统。前者擅长局部细节，后者押注长期规模化。