【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望(4)_

　　Odena 等[35] 提出的 Auxiliary Classifier GAN (AC-GAN) 可以实现多分类问题, 它的判别器输出相应的标签概率. 在实际训练中, 目标函数则包含真实数据来源的似然和正确分类标签的似然, 不再单独由判别器二分类损失来反传调节参数, 可以进一步调节损失函数使得分类正确率更高, AC-GAN 的关键是可以利用输入生成器的标注信息来生成对应的图像标签, 同时还可以在判别器扩展调节损失函数, 从而进一步提高对抗网络的生成和判别能力.

　　考虑到 GAN 的输出为连续实数分布而无法产生离散空间的分布, Yu 等[6] 提出了一种能够生成离散序列的生成式模型 Seq-GAN. 他们用 RNN 实现生成器G, 用CNN 实现判别器D, 用D 的输出判别概率通过增强学习来更新 G. 增强学习中的奖励通过 D 来计算, 对于后面可能的行为采用了蒙特卡洛搜索实现, 计算 D 的输出平均作为奖励值反馈.

【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

　　3. GAN 的应用领域

　　作为一个具有 “无限” 生成能力的模型, GAN的直接应用就是建模, 生成与真实数据分布一致的数据样本, 例如可以生成图像、视频等. GAN 可以用于解决标注数据不足时的学习问题, 例如无监督学习、半监督学习等. GAN 还可以用于语音和语言处理, 例如生成对话、由文本生成图像等. 本节从图像和视觉、语音和语言、其他领域三个方面来阐述GAN 的应用.

　　3.1 图像和视觉领域

　　GAN 能够生成与真实数据分布一致的图像. 一个典型应用来自 Twitter 公司, Ledig 等[36] 提出利用 GAN 来将一个低清模糊图像变换为具有丰富细节的高清图像. 作者用 VGG 网络[37] 作为判别器,用参数化的残差网络[19] 表示生成器, 实验结果如图4 所示, 可以看到 GAN 生成了细节丰富的图像.

【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

　　GAN 也开始用于生成自动驾驶场景. Santana等[38] 提出利用 GAN 来生成与实际交通场景分布一致的图像, 再训练一个基于 RNN 的转移模型实现预测的目的, 实验结果如图 5 所示. GAN 可以用于自动驾驶中的半监督学习或无监督学习任务, 还可以利用实际场景不断更新的视频帧来实时优化 GAN的生成器.

　　Gou 等[39?40] 提出利用仿真图像和真实图像作为训练样本来实现人眼检测, 但是这种仿真图像与真实图像存在一定的分布差距. Shrivastava等[41]提出一种基于 GAN 的方法 (称为 SimGAN), 利用无标签真实图像来丰富细化仿真图像, 使得合成图像更加真实. 作者引入一个自正则化项来实现最小化合成误差并最大程度保留仿真图像的类别, 同时利用加入的局部对抗损失函数来对每个局部图像块进行判别, 使得局部信息更加丰富.

　　3.2 语音和语言领域

　　目前已经有一些关于 GAN 的语音和语言处理文章. Li 等[5] 提出用 GAN 来表征对话之间的隐式关联性, 从而生成对话文本. Zhang 等[42] 提出基于GAN 的文本生成, 他们用 CNN 作为判别器, 判别器基于拟合 LSTM 的输出, 用矩匹配来解决优化问题; 在训练时, 和传统更新多次判别器参数再更新一次生成器不同, 需要多次更新生成器再更新 CNN 判别器.基于策略梯度来训练生成器G, 策略梯度的反馈奖励信号来自于生成器经过蒙特卡洛搜索得到, 实验表明 SeqGAN 在语音、诗词和音乐生成方面可以超过传统方法. Reed 等[43] 提出用GAN 基于文本描述来生成图像, 文本编码被作为生成器的条件输入, 同时为了利用文本编码信息, 也将其作为判别器特定层的额外信息输入来改进判别器,判别是否满足文本描述的准确率, 实验结果表明生成图像和文本描述具有较高相关性.

　　3.3 其他领域

　　除了将 GAN 应用于图像和视觉、语音和语言等领域, GAN 还可以与强化学习相结合, 例如前述的 SeqGAN[6]. 还有研究者将 GAN 和模仿学习融合[44?45] 、将 GAN 和 Actor-critic 方法结合[46] 等. Hu 等[7] 提出 MalGAN 帮助检测恶意代码, 用 GAN生成具有对抗性的病毒代码样本, 实验结果表明基于 GAN 的方法可以比传统基于黑盒检测模型的方法性能更好. Childambaram 等[8] 基于风格转换提出了一个扩展 GAN 的生成器, 用判别器来正则化生成器而不是用一个损失函数, 用国际象棋实验示例证明了所提方法的有效性.

　　4. GAN 的思考与展望

　　4.1 GAN 的思考与展望GAN 的意义和优点

　　GAN 对于生成式模型的发展具有重要的意义. GAN 作为一种生成式方法, 有效解决了可建立自然性解释的数据的生成难题. 尤其对于生成高维数据,所采用的神经网络结构不限制生成维度, 大大拓宽了生成数据样本的范围. 所采用的神经网络结构能够整合各类损失函数, 增加了设计的自由度. GAN的训练过程创新性地将两个神经网络的对抗作为训练准则并且可以使用反向传播进行训练, 训练过程不需要效率较低的马尔科夫链方法, 也不需要做各种近似推理, 没有复杂的变分下界, 大大改善了生成式模型的训练难度和训练效率. GAN 的生成过程不需要繁琐的采样序列, 可以直接进行新样本的采样和推断, 提高了新样本的生成效率. 对抗训练方法摒弃了直接对真实数据的复制或平均, 增加了生成样本的多样性. GAN 在生成样本的实践中, 生成的样本易于人类理解. 例如, 能够生成十分锐利清晰的图像, 为创造性地生成对人类有意义的数据提供了可能的解决方法.

　　GAN 除了对生成式模型的贡献, 对于半监督学习也有启发. GAN 学习过程中不需要数据标签. 虽然 GAN 提出的目的不是半监督学习, 但是 GAN 的训练过程可以用来实施半监督学习中无标签数据对模型的预训练过程. 具体来说, 先利用无标签数据训练 GAN, 基于训练好的 GAN 对数据的理解, 再利用小部分有标签数据训练判别器, 用于传统的分类和回归任务.

　　4.2 GAN 的缺陷和发展趋势

转载请注明出处。