通过先前的章节，我们已经基本清楚的介绍了流模型和扩散模型的理论框架。本文将侧重于生成模型在图像生成方面的应用，简要的介绍如何实现带有要求的指向（条件）生成，具体神经网络架构的设计，并分析几个现代的大型生成模型的实例。

指向生成

我们往往会想要为模型生成的结果添加要求：例如我们有了一个图像生成模型，我们希望其生成服从”身着蓝色礼服头戴礼帽的白色头发的女孩在吃西式甜点“要求的图片，这便是指向生成（Guided Generation。该命名主要是为了与先前对于的条件概率区分，在某些语境中也称条件生成，Conditional Generation）。回忆我们之前介绍的模型，其均为无指向的生成。所幸，添加指向的情形是简单的，我们将简要介绍此时的情形。

流模型的指向生成

假设指向以随机变量表示，则给定指向时，数据空间中每个点服从指向的似然由概率密度给出。那么生成服从指向的物体就等价于对取样。记深度学习模型预测的对于该分布的速度场为，则我们知道其损失函数为：¹ 我们希望训练单个深度学习模型，使其可以预测全体指向的速度场，因此对上式按照的分布加权，记和的联合分布为，最终的损失函数即为：这是一个很好的形式。如果数据集对于所有数据点都标注其指向（或者说分类），假定数据点独立且服从联合分布，那么只需同时取数据点与其标注进行训练即可。

下面我们将要介绍推理时的 Classifier-Free Guidance 技巧，以 Gaussian Probability Path 为例²。记对于指向的目标速度场为 ³ ，熟知：其中：我们希望建立与的关系，注意到：实践发现按照以上速度场模拟 ODE 的模型不能较好的遵从指向，因此我们希望在一定程度上强化指向的影响。为此，选择常数，使得：特别的，该式就不具备严格的数学意义了，而仅仅是经验上的结果。⁴在较早的研究中，此处选择训练一个额外的分类模型以获取项 ⁵，再使用 Flow Matching 训练以得到完整的结果，这种技巧被称作 Classifier Guidance 。但现在我们不希望停在这里，再运用式，得到：这是一个很好的形式，现在我们不再需要辅助分类器了。一个合理的思路是分别训练带指向和不带指向的速度场预测器，在推理时按照上式对它们的结果做线性组合，但我们还是不希望分别训练两个模型。为此，我们将视作，这样便只需训练。一个问题是从数据集中采样时不会得到的情况，因此我们选择以一定的概率丢弃，这种训练方式称作 Context-Free Guidance ，最终得到的损失函数形如：这样便兼顾了所有的情况。特别的，式不仅适用于 Gaussian Probability Path ，也对一般的情况成立。⁶综上，我们只需按照训练模型，并在推理时按照速度场模拟即可。

回忆我们先前对于扩散模型的建模：对于一般的扩散模型，我们需要分别训练和两个模型来分别估计速度场和噪声，其中的形式与流模型完全一致。而对于指向生成的情况，我们仍将其视作关于指向的条件生成，那么得分的损失函数为：

现在我们希望把类似的 Classifier-Free Guidance 技巧推广到指向得分上。对于常数，应用式得到：相比速度场的情况，得分函数的推导是简单的。类似得到最终的 Context-Free Guidance 损失函数：最终的框架便是按照训练模型，并在推理时按照得分模拟。

先前的讨论中我们总是将深度学习模型看作某种通用的函数拟合器，而专注于生成模型本身的设计。现在我们将介绍几种有代表性的针对图像和视频生成的神经网络设计，主要是 U-Net 和 Diffusion Transformer（DiT）。