【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望(2)_

　　生成式模型不仅在人工智能领域占有重要地位,生成方法本身也具有很大的研究价值. 生成方法和判别方法是机器学习中监督学习方法的两个分支.生成式模型是生成方法学习得到的模型. 生成方法涉及对数据的分布假设和分布参数学习, 并能够根据学习而来的模型采样出新的样本. 本文认为生成式模型从研究出发点的角度可以分为两类: 人类理解数据的角度和机器理解数据的角度.

　　从人类理解数据的角度出发, 典型的做法是先对数据的显式变量或者隐含变量进行分布假设, 然后利用真实数据对分布的参数或包含分布的模型进行拟合或训练, 最后利用学习到的分布或模型生成新的样本. 这类生成式模型涉及的主要方法有最大似然估计法、近似法[10?11]、马尔科夫链方法[12?14]等. 从这个角度学习到的模型具有人类能够理解的分布, 但是对机器学习来说具有不同的限制. 例如,以真实样本进行最大似然估计, 参数更新直接来自于数据样本, 导致学习到的生成式模型受到限制. 而采用近似法学习到的生成式模型由于目标函数难解一般只能在学习过程中逼近目标函数的下界, 并不是直接对目标函数的逼近. 马尔科夫链方法既可以用于生成式模型的训练又可以用于新样本的生成,但是马尔科夫链的计算复杂度较高.

　　从机器理解数据的角度出发, 建立的生成式模型一般不直接估计或拟合分布, 而是从未明确假设的分布中获取采样的数据[15], 通过这些数据对模型进行修正. 这样得到的生成式模型对人类来说缺乏可解释性, 但是生成的样本却是人类可以理解的. 以此推测, 机器以人类无法显式理解的方式理解了数据并且生成了人类能够理解的新数据. 在 GAN 提出之前, 这种从机器理解数据的角度建立的生成式模型一般需要使用马尔科夫链进行模型训练, 效率较低, 一定程度上限制了其系统应用.

　　GAN 提出之前, 生成式模型已经有一定研究积累, 模型训练过程和生成数据过程中的局限无疑是生成式模型的障碍. 要真正实现人工智能的四个层次, 就需要设计新的生成式模型来突破已有的障碍.

　　1.3 神经网络的深化

　　过去 10 年来, 随着深度学习[16?17] 技术在各个领域取得巨大成功, 神经网络研究再度崛起. 神经网络作为深度学习的模型结构, 得益于计算能力的提升和数据量的增大, 一定程度上解决了自身参数多、训练难的问题, 被广泛应用于解决各类问题中. 例如, 深度学习技术在图像分类问题上取得了突破性的效果[18?19], 显著提高了语音识别的准确率[20], 又被成功应用于自然语言理解领域[21] . 神经网络取得的成功和模型自身的特点是密不可分的. 在训练方面, 神经网络能够采用通用的反向传播算法, 训练过程容易实现; 在结构方面, 神经网络的结构设计自由灵活, 局限性小; 在建模能力方面, 神经网络理论上能够逼近任意函数, 应用范围广. 另外, 计算能力的提升使得神经网络能够更快地训练更多的参数, 进一步推动了神经网络的流行.

　　1.4 对抗思想的成功

　　从机器学习到人工智能, 对抗思想被成功引入若干领域并发挥作用. 博弈、竞争中均包含着对抗的思想. 博弈机器学习[22] 将博弈论的思想与机器学习结合, 对人的动态策略以博弈论的方法进行建模,优化广告竞价机制, 并在实验中证明了该方法的有效性. 围棋程序 AlphaGo[23] 战胜人类选手引起大众对人工智能的兴趣, 而 AlphaGo 的中级版本在训练策略网络的过程中就采取了两个网络左右互博的方式,获得棋局状态、策略和对应回报,并以包含博弈回报的期望函数作为最大化目标. 在神经网络的研究中, 曾有研究者利用两个神经网络互相竞争的方式对网络进行训练[24] , 鼓励网络的隐层节点之间在统计上独立, 将此作为训练过程中的正则因素. 还有研究者[25?26] 采用对抗思想来训练领域适应的神经网络: 特征生成器将源领域数据和目标领域数据变换为高层抽象特征, 尽可能使特征的产生领域难以判别; 领域判别器基于变换后的特征, 尽可能准确地判别特征的领域. 对抗样本[27?28] 也包含着对抗的思想, 指的是那些和真实样本差别甚微却被误分类的样本或者差异很大却被以很高置信度分为某一真实类的样本, 反映了神经网络的一种诡异行为特性. 对抗样本和对抗网络虽然都包含着对抗的思想,但是目的完全不同. 对抗思想应用于机器学习或人工智能取得的诸多成果, 也激发了更多的研究者对GAN 的不断挖掘。

　　2. GAN的理论与实现模型

　　2.1 GAN 的理论与实现模型GAN 的基本原理

　　GAN 的核心思想来源于博弈论的纳什均衡. 它设定参与游戏双方分别为一个生成器 (Generator)和一个判别器 (Discriminator), 生成器的目的是尽量去学习真实的数据分布, 而判别器的目的是尽量正确判别输入数据是来自真实数据还是来自生成器;为了取得游戏胜利, 这两个游戏参与者需要不断优化, 各自提高自己的生成能力和判别能力, 这个学习优化过程就是寻找二者之间的一个纳什均衡. GAN的计算流程与结构如图 2 所示. 任意可微分的函数都可以用来表示 GAN 的生成器和判别器, 由此,我们用可微分函数 D 和 G 来分别表示判别器和生成器, 它们的输入分别为真实数据 x 和随机变量 z.G(z) 则为由 G 生成的尽量服从真实数据分布 pdata的样本. 如果判别器的输入来自真实数据, 标注为 1.如果输入样本为 G(z), 标注为 0. 这里 D 的目标是实现对数据来源的二分类判别: 真 (来源于真实数据x 的分布) 或者伪 (来源于生成器的伪数据 G(z)),而 G 的目标是使自己生成的伪数据 G(z) 在 D 上的表现D(G(z))和真实数据x在D上的表现D(x)一致, 这两个相互对抗并迭代优化的过程使得 D 和 G 的性能不断提升, 当最终 D 的判别能力提升到一定程度, 并且无法正确判别数据来源时, 可以认为这个生成器 G 已经学到了真实数据的分布.

【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

　　2.2 GAN 的学习方法

　　本节中我们讨论 GAN 的学习训练机制。

　　首先，在给定生成器 G 的情况下, 我们考虑最优化判别器 D. 和一般基于 Sigmoid 的二分类模型训练一样, 训练判别器 D 也是最小化交叉熵的过程,其损失函数为:

【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

转载请注明出处。