到底什么是生成式对抗网络GAN？_

　　到底什么是生成式对抗网络GAN？

男：哎，你看我给你拍的好不好？

女：这是什么鬼，你不能学学XXX的构图吗？

男：哦

……

男：这次你看我拍的行不行？

女：你看看你的后期，再看看YYY的后期吧，呵呵

男：哦

……

男：这次好点了吧？

女：呵呵，我看你这辈子是学不会摄影了

……

男：这次呢？

女：嗯，我拿去当头像了

上面这段对话讲述了一位“男朋友摄影师”的成长历程。很多人可能会问：这个故事和生成式对抗网络（GAN）有什么关系？其实，只要你能理解这段故事，就可以了解生成式对抗网络的工作原理。

首先，先介绍一下生成模型（generative model），它在机器学习的历史上一直占有举足轻重的地位。当我们拥有大量的数据，例如图像、语音、文本等，如果生成模型可以帮助我们模拟这些高维数据的分布，那么对很多应用将大有裨益。

针对数据量缺乏的场景，生成模型则可以帮助生成数据，提高数据数量，从而利用半监督学习提升学习效率。语言模型（language model）是生成模型被广泛使用的例子之一，通过合理建模，语言模型不仅可以帮助生成语言通顺的句子，还在机器翻译、聊天对话等研究领域有着广泛的辅助应用。

那么，如果有数据集S={x1，…xn}，如何建立一个关于这个类型数据的生成模型呢？最简单的方法就是：假设这些数据的分布P{X}服从g(x;θ)，在观测数据上通过最大化似然函数得到θ的值，即最大似然法：

　　到底什么是生成式对抗网络GAN？

　　GAN的工作原理是这样的

文章开头描述的场景中有两个参与者，一个是摄影师（男生），一个是摄影师的女朋友（女生）。男生一直试图拍出像众多优秀摄影师一样的好照片，而女生一直以挑剔的眼光找出“自己男朋友”拍的照片和“别人家的男朋友”拍的照片的区别。于是两者的交流过程类似于：男生拍一些照片 ->女生分辨男生拍的照片和自己喜欢的照片的区别->男生根据反馈改进自己的技术，拍新的照片->女生根据新的照片继续提出改进意见->……，这个过程直到均衡出现：即女生不能再分辨出“自己男朋友”拍的照片和“别人家的男朋友”拍的照片的区别。

我们将视线回看到生成模型，以图像生成模型举例。假设我们有一个图片生成模型（generator），它的目标是生成一张真实的图片。与此同时我们有一个图像判别模型（discriminator），它的目标是能够正确判别一张图片是生成出来的还是真实存在的。那么如果我们把刚才的场景映射成图片生成模型和判别模型之间的博弈，就变成了如下模式：生成模型生成一些图片->判别模型学习区分生成的图片和真实图片->生成模型根据判别模型改进自己，生成新的图片->····

这个场景直至生成模型与判别模型无法提高自己——即判别模型无法判断一张图片是生成出来的还是真实的而结束，此时生成模型就会成为一个完美的模型。这种相互学习的过程听起来是不是很有趣？

上述这种博弈式的训练过程，如果采用神经网络作为模型类型，则被称为生成式对抗网络（GAN）。用数学语言描述整个博弈过程的话，就是：假设我们的生成模型是g(z)，其中z是一个随机噪声，而g将这个随机噪声转化为数据类型x，仍拿图片问题举例，这里g的输出就是一张图片。D是一个判别模型，对任何输入x，D(x)的输出是0-1范围内的一个实数，用来判断这个图片是一个真实图片的概率是多大。令Pr和Pg分别代表真实图像的分布与生成图像的分布，我们判别模型的目标函数如下：

　　到底什么是生成式对抗网络GAN？

类似的生成模型的目标是让判别模型无法区分真实图片与生成图片，那么整个的优化目标函数如下：

　　到底什么是生成式对抗网络GAN？

这个最大最小化目标函数如何进行优化呢？最直观的处理办法就是分别对D和g进行交互迭代，固定g，优化D，一段时间后，固定D再优化g，直到过程收敛。

到底什么是生成式对抗网络GAN？

一个简单的例子如下图所示：假设在训练开始时，真实样本分布、生成样本分布以及判别模型分别是图中的黑线、绿线和蓝线。可以看出，在训练开始时，判别模型是无法很好地区分真实样本和生成样本的。接下来当我们固定生成模型，而优化判别模型时，优化结果如第二幅图所示，可以看出，这个时候判别模型已经可以较好的区分生成数据和真实数据了。第三步是固定判别模型，改进生成模型，试图让判别模型无法区分生成图片与真实图片，在这个过程中，可以看出由模型生成的图片分布与真实图片分布更加接近，这样的迭代不断进行，直到最终收敛，生成分布和真实分布重合。

到底什么是生成式对抗网络GAN？

以上就是生成式对抗网络的基本核心知识，下面我们看几个在实际中应用的例子。

　　GAN在图像中的应用——DCGAN

为了方便大家更好地理解生成式对抗网络的工作过程，下面介绍一个GAN的使用场景——在图片中的生成模型DCGAN。

在图像生成过程中，如何设计生成模型和判别模型呢？深度学习里，对图像分类建模，刻画图像不同层次，抽象信息表达的最有效的模型是：CNN （convolutional neural network，卷积神经网络）。

到底什么是生成式对抗网络GAN？

CNN是深度神经网络的一种，可以通过卷积层（convolutional layer）提取不同层级的信息，如上图所示。CNN模型以图片作为输入，以图片、类别抽象表达作为输出，如：纹理、形状等等，其实这与人类对图像的认知有相似之处，即：我们对一张照片的理解也是多层次逐渐深入的。

那么生成图像的模型应该是什么样子的呢？想想小时候上美术课，我们会先考虑构图，再勾画轮廓，然后再画细节，最后填充颜色，这事实上也是一个多层级的过程，就像是把图像理解的过程反过来，于是，人们为图像生成设计了一种类似反卷积的结构：Deep convolutional NN for GAN（DCGAN）

到底什么是生成式对抗网络GAN？

DCGAN采用一个随机噪声向量作为输入，如高斯噪声。输入通过与CNN类似但是相反的结构，将输入放大成二维数据。通过采用这种结构的生成模型和CNN结构的判别模型，DCGAN在图片生成上可以达到相当可观的效果。如下是一些生成的案例照片。

到底什么是生成式对抗网络GAN？

转载请注明出处。