上山打老虎 发表于 2021-7-18 14:25:35

语义金字塔式-图像生成:一种使用分类模型特征的方法


1 概要

[*]https://arxiv.org/pdf/2003.06221.pdf
[*]https://semantic-pyramid.github.io/(代码暂未放出)
[*]提出了一种新的基于GAN的模型,利用预先训练的分类模型学习的深度特征空间。
[*]受经典图像金字塔表征启发,将模型构建为语义金字塔式的生成:低层信息包含的是精细的特征(纹理细节等),高层/深层的信息则涵盖高级语义信息(类别等)。


[*]也就是说,给定参考图像,使用分类模型提取一组特征,所提出的生成模型可以根据它们其中不同的语义级别信息生成不同的图像样本。
[*]这种设计可以有效完成三个目标:利用预训练分类模型不同级别的特征;灵活性和可控性;生成多样化的图像。
[*]证明了所提方法可以作为一种通用灵活的框架,该框架可用于各种经典和新颖的图像生成任务:生成与参考图像具有可控制语义相似度的图像,图像修复和组合等。
2 架构

[*]生成器与预训练的分类模型(预训练好并固定参数)协同工作:例如在实验中,使用在Places365数据集训练的VGG-16模型。
[*]更具体地说,给定输入图像 ,将其输入分类模型,并通过获取模型不同层的激活得到一组特征图 。也就是说, ,其中 表示分类模型的第 层。然后将这些功能融合到生成器中,如下所示。


[*]网络的输入是:(1)一组通过将输入图像 输入分类模型并从不同层提取激活图来计算得到的特征 ;(2)噪声矢量z,它可以使得生成多样化并去学习一个分布而非一对一(重建)映射;(3)一组掩码 ,每个掩码限制了如何使用输入特征 ;
[*]图3(b)描述了如何将特征图融合到生成器中。特征图 首先乘以 。然后,将得到的特征图将进行卷积处理,并将结果与相应块的结果相加。


[*]分类模型的特征流动到生成器,是受 控制的:例如,全1时,通过整个特征图;全0,遮盖整个特征图;或者允许部分(测试时可由用户制定)。
[*]整个网络基于self-attention GAN。
3 训练3.1 流程

[*]我们的目标是从输入特征 的任何子集生成多样化的高质量图像样本。
[*]在每次训练迭代中,都会从数据集中采样一批输入图像,并将其输入分类模型以计算其特征。
[*]在默认训练步骤中,随机选择一个金字塔层,并仅将其用以融合生成器对应的层次;而同时遮盖所有其他层。
[*]当然,还希望能够从多种语义层提取信息去生成内容,保留图像的某些区域,而又修改其他区域。因此,也使用空间变化的掩膜进行训练,首先,对图像随机裁剪进行采样,然后对于一个随机选择的层,将置1完全打开。如前面图4所示。
3.2  损失函数


[*]LSGAN版的对抗损失
[*]语义重建损失


[*]多样性损失(参考 Mode seeking generative adversarial networks for diverse image synthesis)
3.3  实现细节

4 实验4.1 生成:
下图2中显示了一些示例。这些生成样本均来自相同的特征,但具有不同的噪声Z。分类模型更深或者更高层的抽象语义特征主导了类别、几何结构、更大范围的变动幅度;而分类模型较浅层的特征则控制的是细微的纹理、颜色的信息。

4.2 评估标准:
采用的是FID和用户调查:
注:

4.3 编辑:

[*]Re-painting(重绘)


[*]Semantic image composition(图像组合)


[*]Generation from unnatural reference image(从非自然真实场景进行图像生成)


[*]Re-labeling(类别重分配)
5 结论这项工作提出了一种联系语义分类模型和生成模型的方法;展示了语义金字塔生成方法可以作为统一通用框架,用于多种图像生成和处理任务。作者认为,通过语义特征进行相关逆映射或其它操作是图像编辑的关键思路之一。



文档来源:51CTO技术博客https://blog.51cto.com/u_15298598/3120740
页: [1]
查看完整版本: 语义金字塔式-图像生成:一种使用分类模型特征的方法