扩散模型过去几年最经典的配置,是 U-Net 加上一整套为图像生成定制的模块。它有效、稳定,也足够工程化。但这套架构也有一个问题:它太像上一代视觉模型留下来的路径依赖。
Transformer 进入扩散模型之后,真正改变的不是某个指标,而是建模方式。图像不再只是卷积核滑过的二维网格,而可以被拆成一组可以相互注意的 token。模型开始用更统一的方式处理图像、文本和条件信息。
这件事的意义在于,生成模型开始靠近大模型的主干范式。架构统一之后,规模化、数据混合、跨模态训练都会变得更自然。FID 的突破只是表面结果,真正值得关注的是技术栈的收敛。
如果说 U-Net 时代的扩散模型像一台精密的图像机器,那么 Transformer 版本更像一个可扩展的生成系统。前者擅长局部细节,后者押注长期规模化。