第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习(3)_

　　第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

当然，还可以用DCGAN网络来分类，用它的判别式模型部分来做分类这件事。这就好像用大炮打蚊子是没有必要的，但用大炮里某个部件（即判别式模型）打蚊子，确实要比用大炮拍打蚊子要打的好。所以，我们取出一块深度网络中的一部分来分析，发现它确实可以帮助找到非常关键的一些数据特征，而且用它来做分类的效果就比其他的办法要好很多。再回到西部世界的那个例子，看“苍蝇趴在脸上，人的反应”这个特征，就可以被找出来了。

有了GAN这个方法，我们可以对任意样本做向量化，从而加以比较。比方说，我们可以比较“苹果”和“橘子”，看它们的距离到底是不是比“苹果”和“香蕉”近一些？我们知道在自然语言界有一个技术叫Word2vec，从文字到向量表示（Embedding），是一个连续实数向量。它可以做什么呢？比方说它认为，v(“woman”)-v(“man”)+v(“king”) =v(“queen”)，即女人减去男人，再加上一个国王，相当于把女人的特性赋予国王，这个国王对应的就应该是女王，这个过程做类比。类比是怎么产生的呢？在高维空间，大数据会表明，这两个字的用法差不多，它们的距离很近。而GAN网络也可以做这件事情，比方说这个男的戴墨镜，减去一个男的再加一个女的，就变成了一个女的戴墨镜，这个是可以用GAN可以做的，很神奇。

　　第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

但是这样设计的系统还是有一些缺点。比如，如果我们稍微换一换模型的参数，模型效果就会急剧变差。这说明，直接用DCGAN建立的模型不大可靠。

怎么解决这个问题呢？我们在开始讲过，GAN的思想就是不断修改生成式模型使得模拟的概率模型尽量接近实际的概率模型。所以，可靠性问题的实质就在于：如何可靠准确地测量两个概率分布之间的距离。这里有一个新的技术叫Wasserstein GAN。因为传统的生成式模型的目标函数通常都是优化KLpergence, GAN的目标函数在优化JS pergence. 但这两个距离都有缺点：就是不能准确表达所有分布之间的距离。所以有人提出一个更靠谱距离表达，叫做Wasserstein距离，外号叫“土地挖掘机” （Earth-mover），就是给你一个土山，那么如果你用挖掘机在这一座山，去复制另一座山，问你需要花多大的力气 — 这个移动土地的费用就是Wasserstein 距离，简称W距离。如果两座山的形状完全一样，那么就不需要任何费用。如果两者完全不同，那么就需要很多的费用。

　　第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

如果换成这个W距离来测量概率分布就好得多。比如说，给定两个数据集的分布，其中一个是真实的新闻分布，一个是假新闻的分布。如果用KL或JS距离来表达，结果都不够好，会得到一个是无穷大，一个是一个常数。用这样的距离就没有办法识别真、假新闻了。但如果我们用了W距离，得到的会是一个连续可导的距离。所以，用W距离来设计GAN （WGAN）就靠谱多了。

生成式对抗模型（GAN）可以做哪些事呢？它可以做模型的解释，做图像分析和自然语言分析。还可以再加上一些新的边界条件，用来做迁移学习。

　　第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

上面这个例子，是把一个模糊影像变到清晰影像的任务，模糊影像的模型是有很多的不确定的地方。把一幅画变为清晰的过程，就是在一个矩阵里面找到丢失的值，并且把它用真实值填满；这个事和我们第四范式做推荐系统的概念是一样的。

再者，就是可以用GAN来很自然地实现迁移学习。比如说，如果我们又一个很好的生成式模型，在某个数据集上已经训练好了，如果有一些新的数据，和前一个数据集有明显的区别，那么我们可以利用“GAN＋边界条件”，把生成式模型“迁移到” 新的数据分布上。比方说，我们写字的时候，每个人签名都是不同的，我们不会用印刷体来签名，因为我们每个人都有自己的写字的特点。那么，如果用大量的印刷体字作为第一部分的训练样本，来训练一个不错的通用模型，而用某个人手写的斜体字做第二部分的训练样本，就可以利用WGAN把印刷体的模型迁移到个人的签名。也就是说，这样的签名也就更具个性化特点。

所以说，即使源数据和目标数据在写法上、颜色上有一些区别，GAN的模型可以实现迁移学习的目标。

这里还有一个迁移学习的例子：在领域适应（Domain Adaptation）的问题中，在目标领域没有任何的标注，所有的标注都在源领域。 GANIN等人设计了一个类似于GAN的模型，在源领域用标注数据来做标注数据的分类，同时连接到一个“领域判别器”来区分输入的数据，看数据是来源还是目标领域。这个过程进行到最后，当领域判别器不可以很好地区分数据来自哪个领域，就说明神经网络的中间层学会两个不同领域的相同特征部分了。这个时候，迁移学习的目的就达到了。

　　第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

总结起来我们看到，生成式对抗网络是一个新的机器学习的思想。它是由两个模型共同产生的——就像是两个学生同时成长，一个学生专注于生成样本，一个学生专注于判别真假，他们来互相促进。同时，生成式对抗网络也存在一定缺陷，首先它需要的数据量还是很大的；此外，理论的指导还是比较缺乏。

　　第四范式专栏 | 杨强教授漫谈《西部世界》、生成式对抗网络及迁移学习

最后我们还回到《西部世界》的场景。这个电视剧的一条主线是对机器人（或人类）的智能成长的路径，电视剧的后面几集提出了一个重要的思想：“二分心智”（Bicameral Mind）。这是个关于人类智能的发展的假说：提出大脑中的智能和意识的发展，是通过两个独立的智能体的不断对话和学习来实现的。也就是我们常说的 “脑袋里的两个小人在打架”。这个二份心智理论曾经在心理学界大行其道。

我们看到，生成式对抗网络GAN的模型，和这个“二分心智”的理论有些不谋而合：它们都是认为智能应该是能够不断学习提高的，都提出：智能成长的机制是由两个互动的系统来相互刺激。在GAN这个模型中，这两个机制分别是生成式模型和判别式模型。在《西部世界》里，这个刺激来自很多的苦难和创痛，让机器人Dolores 和她的同伴们经历了很多痛苦艰难的事情，最后刺激让她／他们产生了“二分心智”，也就产生了意识。就像这幅图中的两个Dolores在对话所表现的那样，最终导致机器人们产生了意识。

转载请注明出处。