语义金字塔式-图像生成：一种使用分类模型特征的方法

上山打老虎

1 概要

2 架构

生成器与预训练的分类模型（预训练好并固定参数）协同工作：例如在实验中，使用在Places365数据集训练的VGG-16模型。
更具体地说，给定输入图像，将其输入分类模型，并通过获取模型不同层的激活得到一组特征图。也就是说，，其中表示分类模型的第层。然后将这些功能融合到生成器中，如下所示。

网络的输入是：（1）一组通过将输入图像输入分类模型并从不同层提取激活图来计算得到的特征；（2）噪声矢量z，它可以使得生成多样化并去学习一个分布而非一对一（重建）映射；（3）一组掩码，每个掩码限制了如何使用输入特征；
图3（b）描述了如何将特征图融合到生成器中。特征图首先乘以。然后，将得到的特征图将进行卷积处理，并将结果与相应块的结果相加。

3 训练3.1 流程

我们的目标是从输入特征的任何子集生成多样化的高质量图像样本。
在每次训练迭代中，都会从数据集中采样一批输入图像，并将其输入分类模型以计算其特征。
在默认训练步骤中，随机选择一个金字塔层，并仅将其用以融合生成器对应的层次；而同时遮盖所有其他层。
当然，还希望能够从多种语义层提取信息去生成内容，保留图像的某些区域，而又修改其他区域。因此，也使用空间变化的掩膜进行训练，首先，对图像随机裁剪进行采样，然后对于一个随机选择的层，将置1完全打开。如前面图4所示。

3.2 损失函数

多样性损失（参考 Mode seeking generative adversarial networks for diverse image synthesis）

3.3 实现细节

4 实验4.1 生成：
下图2中显示了一些示例。这些生成样本均来自相同的特征，但具有不同的噪声Z。分类模型更深或者更高层的抽象语义特征主导了类别、几何结构、更大范围的变动幅度；而分类模型较浅层的特征则控制的是细微的纹理、颜色的信息。

4.2 评估标准：
采用的是FID和用户调查：

注：

4.3 编辑：

5 结论这项工作提出了一种联系语义分类模型和生成模型的方法；展示了语义金字塔生成方法可以作为统一通用框架，用于多种图像生成和处理任务。作者认为，通过语义特征进行相关逆映射或其它操作是图像编辑的关键思路之一。