【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望(4)
2017-03-26 编辑:
Odena 等[35] 提出的 Auxiliary Classifier GAN (AC-GAN) 可以实现多分类问题, 它的判别器输出 相应的标签概率. 在实际训练中, 目标函数则包含真 实数据来源的似然和正确分类标签的似然, 不再单 独由判别器二分类损失来反传调节参数, 可以进一 步调节损失函数使得分类正确率更高, AC-GAN 的 关键是可以利用输入生成器的标注信息来生成对应 的图像标签, 同时还可以在判别器扩展调节损失函 数, 从而进一步提高对抗网络的生成和判别能力.
考虑到 GAN 的输出为连续实数分布而无法产 生离散空间的分布, Yu 等[6] 提出了一种能够生成离 散序列的生成式模型 Seq-GAN. 他们用 RNN 实现 生成器G, 用CNN 实现判别器D, 用D 的输出判 别概率通过增强学习来更新 G. 增强学习中的奖励 通过 D 来计算, 对于后面可能的行为采用了蒙特卡 洛搜索实现, 计算 D 的输出平均作为奖励值反馈.
3. GAN 的应用领域
作为一个具有 “无限” 生成能力的模型, GAN的直接应用就是建模, 生成与真实数据分布一致的 数据样本, 例如可以生成图像、视频等. GAN 可以 用于解决标注数据不足时的学习问题, 例如无监督 学习、半监督学习等. GAN 还可以用于语音和语言 处理, 例如生成对话、由文本生成图像等. 本节从图 像和视觉、语音和语言、其他领域三个方面来阐述GAN 的应用.
3.1 图像和视觉领域
GAN 能够生成与真实数据分布一致的图像. 一 个典型应用来自 Twitter 公司, Ledig 等[36] 提出利 用 GAN 来将一个低清模糊图像变换为具有丰富细 节的高清图像. 作者用 VGG 网络[37] 作为判别器,用参数化的残差网络[19] 表示生成器, 实验结果如图4 所示, 可以看到 GAN 生成了细节丰富的图像.
GAN 也开始用于生成自动驾驶场景. Santana等[38] 提出利用 GAN 来生成与实际交通场景分布一 致的图像, 再训练一个基于 RNN 的转移模型实现预 测的目的, 实验结果如图 5 所示. GAN 可以用于自 动驾驶中的半监督学习或无监督学习任务, 还可以 利用实际场景不断更新的视频帧来实时优化 GAN的生成器.
Gou 等[39?40] 提出利用仿真图像和真实图像作 为训练样本来实现人眼检测, 但是这种仿真图像与 真实图像存在一定的分布差距. Shrivastava等[41]提出一种基于 GAN 的方法 (称为 SimGAN), 利用 无标签真实图像来丰富细化仿真图像, 使得合成图 像更加真实. 作者引入一个自正则化项来实现最小 化合成误差并最大程度保留仿真图像的类别, 同时 利用加入的局部对抗损失函数来对每个局部图像块 进行判别, 使得局部信息更加丰富.
3.2 语音和语言领域
目前已经有一些关于 GAN 的语音和语言处理 文章. Li 等[5] 提出用 GAN 来表征对话之间的隐式 关联性, 从而生成对话文本. Zhang 等[42] 提出基于GAN 的文本生成, 他们用 CNN 作为判别器, 判别 器基于拟合 LSTM 的输出, 用矩匹配来解决优化问 题; 在训练时, 和传统更新多次判别器参数再更新一 次生成器不同, 需要多次更新生成器再更新 CNN 判别器.基于策略梯度来训练生成器G, 策略梯度的反馈奖励信号来自于生成器经过蒙特卡 洛搜索得到, 实验表明 SeqGAN 在语音、诗词和音 乐生成方面可以超过传统方法. Reed 等[43] 提出用GAN 基于文本描述来生成图像, 文本编码被作为生 成器的条件输入, 同时为了利用文本编码信息, 也将 其作为判别器特定层的额外信息输入来改进判别器,判别是否满足文本描述的准确率, 实验结果表明生 成图像和文本描述具有较高相关性.
3.3 其他领域
除了将 GAN 应用于图像和视觉、语音和语言 等领域, GAN 还可以与强化学习相结合, 例如前述 的 SeqGAN[6]. 还有研究者将 GAN 和模仿学习融 合[44?45] 、将 GAN 和 Actor-critic 方法结合[46] 等. Hu 等[7] 提出 MalGAN 帮助检测恶意代码, 用 GAN生成具有对抗性的病毒代码样本, 实验结果表明基 于 GAN 的方法可以比传统基于黑盒检测模型的方 法性能更好. Childambaram 等[8] 基于风格转换提 出了一个扩展 GAN 的生成器, 用判别器来正则化 生成器而不是用一个损失函数, 用国际象棋实验示例证明了所提方法的有效性.
4. GAN 的思考与展望
4.1 GAN 的思考与展望GAN 的意义和优点
GAN 对于生成式模型的发展具有重要的意义. GAN 作为一种生成式方法, 有效解决了可建立自然 性解释的数据的生成难题. 尤其对于生成高维数据,所采用的神经网络结构不限制生成维度, 大大拓宽 了生成数据样本的范围. 所采用的神经网络结构能 够整合各类损失函数, 增加了设计的自由度. GAN的训练过程创新性地将两个神经网络的对抗作为训 练准则并且可以使用反向传播进行训练, 训练过程 不需要效率较低的马尔科夫链方法, 也不需要做各 种近似推理, 没有复杂的变分下界, 大大改善了生成 式模型的训练难度和训练效率. GAN 的生成过程不 需要繁琐的采样序列, 可以直接进行新样本的采样 和推断, 提高了新样本的生成效率. 对抗训练方法摒 弃了直接对真实数据的复制或平均, 增加了生成样 本的多样性. GAN 在生成样本的实践中, 生成的样 本易于人类理解. 例如, 能够生成十分锐利清晰的图像, 为创造性地生成对人类有意义的数据提供了可 能的解决方法.
GAN 除了对生成式模型的贡献, 对于半监督学 习也有启发. GAN 学习过程中不需要数据标签. 虽 然 GAN 提出的目的不是半监督学习, 但是 GAN 的 训练过程可以用来实施半监督学习中无标签数据对 模型的预训练过程. 具体来说, 先利用无标签数据训 练 GAN, 基于训练好的 GAN 对数据的理解, 再利 用小部分有标签数据训练判别器, 用于传统的分类 和回归任务.
4.2 GAN 的缺陷和发展趋势