MIT 新系统用机器学习实现机器学习，合成数据较好代替真实数据_

新智元编译

来源：news.mit.edu

译者：张易

　　新智元启动 2017 最新一轮大招聘：COO、总编、主笔、运营总监、视觉总监等８大职位全面开放。

　　新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元，与人工智能业界领袖携手改变世界。

简历投递：jobs@aiera.com.cn HR 微信：13552313024

　　【新智元导读】使用真实数据所带来的隐私问题极大地阻碍了数据科学的发展。MIT 的本篇论文描述了一种自动创建合成数据的机器学习系统，这种合成数据与真实用户所产生的数据完全不同，却仍可用于开发和测试数据科学中的算法和模型。研究提出的 Synthetic Data Vault （SDV）可以从真实数据库中构建一个机器学习模型，来创建人造或合成数据。这一算法称为“递归条件参数聚合”（recursive conditional parameter aggregation）。研究显示，使用合成数据和使用真实数据的数据科学家的工作没有显著差异。

　　虽然数据科学家可以从大型数据集中得出很多洞见，并利用这些洞见应对挑战、实现任务目标——但这谈何容易！许多这样的努力从一开始就困难重重，因为隐私问题使科学家难以访问他们想要使用的数据。

　　在一篇提交给 IEEE 国际数据科学和高级分析会议的论文中，MIT 信息和决策系统实验室（LIDS）的 Data to AI Lab 成员 Kalyan Veeramachaneni，论文合作者、LIDS及数据、系统和社会学院（IDSS）的首席科学家 Neha Patki 和 Roy Wedge 描述了一种自动创建合成数据的机器学习系统，目的是使数据科学的努力，即使缺乏对实际数据的访问，也不会完全和真实情况脱节。使用真实数据可能会引起严重的隐私问题，而这种合成数据与真实用户所产生的数据完全不同，却仍可用于开发和测试数据科学中的算法和模型。

　　Veeramachaneni 说：“一旦我们为整个数据库建立了模型，我们就可以取样并再造出一个这些数据的合成版本，从统计学的角度看，合成版本看上去和原始数据库非常像。如果原始数据库中有一些缺失的值和一些噪音，我们还将该噪声也嵌入在合成版本中。在某种程度上，我们正在使用机器学习来实现机器学习。”

　　这篇论文介绍了 Synthetic Data Vault （SDV），该系统可以从真实数据库中构建一个机器学习模型，来创建人造或合成数据。这一算法称为“递归条件参数聚合”（recursive conditional parameter aggregation），利用了所有数据库共有的数据层次结构。例如，它可以根据客户交易表中的交易信息，为每个客户形成多变量模型。

　　该模型捕获这些交易中多个域之间的相关性，例如购买数额和类型，以及交易发生的时间等等。在算法对每个客户进行建模并组合参数后，可以自己形成这些参数的多变量模型，并对整个数据库进行递归建模。一旦模型完成学习，就可以合成一个充满人工数据的数据库。

　　测试表明，合成数据能够较好地取代真实数据

　　在开发了 SDV 后，该团队使用它为五种不同的公开数据集生成了合成数据。然后，作为众包实验的一部分，他们聘请了 39 位独立数据科学家，分成四个小组，开发预测模型。他们想要回答的问题是：在被给予合成数据的数据科学家和访问真实数据的数据科学家之间，他们的工作是否存在区别？为了测试这一点，一组被给予了原始数据集，而另外三组拿到的则是合成版本，每个组使用他们的数据来解决一个预测建模问题，最终在 5 个数据集上进行 15 次测试，最后，比较他们的解决方案，可以看出使用真实数据生成的组和使用合成数据生成的组在 15 个测试中的 11 个上没有表现出显著的性能差异（70%）。

　　这些结果表明，合成数据可以成功地取代软件编写和测试中的真实数据——这意味着数据科学家可以使用它来克服访问中存在的重大困难。 Veeramachaneni 说：“使用合成数据可以摆脱‘隐私瓶颈’，这样一来后续的工作就可以开始了。这对一系列行业的数据科学都会有影响。除了一些以前无法进行工作现在可以开始以外，合成数据也将使数据科学家能够继续进行已经开始的工作，而不会涉及到真正的潜在敏感数据。

　　Veeramachaneni 说：“公司现在可以创建他们数据仓库或数据库的合成版本了。这样他们就可以规避诸如优步这样的公司所面临的问题，并使他们的数据科学家能够继续设计和测试方法，而不会侵害到正在使用他们服务的人士——包括他们的朋友和家人——的隐私。”

　　此外，Veeramachaneni 及其团队的机器学习模型在规模上可以轻松缩放，创建非常小或非常大的合成数据集，适应大数据系统的快速开发周期或压力测试。

　　人工数据也是教育学生的宝贵工具。真实数据对于他们的工作往往过于敏感，现在则可以有效地利用合成数据。这一创新可以让下一代数据科学家享受大数据的所有好处，而不用承担任何责任。

　　IEEE 论文：合成数据库

　　 MIT 新系统用机器学习实现机器学习，合成数据较好代替真实数据

摘要

　　本研究的目标是建立一个自动创建合成数据以实现数据科学潜能的系统。为了达到这一目标，我们提出了 Synthetic Data Vault (SDV)，该系统构建了关系数据库的生成模型。我们能够从模型中进行抽样并创建合成数据，因此命名为SDV。在实施 SDV 时，我们还开发了一种算法，用于计算相关数据库表的节点处的统计信息。然后，我们使用最先进的多变量建模方法对该数据进行建模。SDV 遍历所有可能的关系，最终为整个数据库创建一个模型。一旦该模型的计算完成，相同的关系信息允许SDV 从数据库的任何部分进行抽样来合成数据。

　　构建 SDV 后，我们使用它为五个不同的公开数据集生成合成数据。然后，我们发布了这些数据集，并要求数据科学家为它们开发预测模型，作为众包实验的一部分。通过分析结果，我们显示合成数据可以成功地在数据科学中替代原始数据。我们的分析表明，使用合成数据而非真实数据的数据科学家的工作没有显著差异。我们得出结论，SDV是合成数据生成的可行解决方案。

　　论文地址：http://dai.lids.mit.edu/SDV.pdf

　　MIT 报道文章：http://news.mit.edu/2017/artificial-data-give-same-results-as-real-data-0303

新智元招聘

转载请注明出处。