IBM机器学习CTO给2190名知乎网友的一封信_

　　“

　　4月11日晚上7点到8点, IBM机器学习首席技术官Jean-Francois Puget ( JFP)博士，在知乎Live上开展了一场跟2190名知乎网友（也叫知友）的对话，分享了机器学习的相关趋势、IBM在机器学习的战略以及相关的研发投入，也用真实案例来说明了机器学习在商业领域的价值。

　　”

　　一个小时的分享和沟通实在是有些短暂，很多知友的问题没有来得及回答，所以JFP在分享之后，针对知友们提出的问题进行了回答。我们将他的回答进行了翻译和简单的整理，以飨读者。

　　 IBM机器学习CTO给2190名知乎网友的一封信

　　成熟的机器学习算法是否已应用于商业上？

　　是的。机器学习已用于多个领域。其中之一就是经常使用矩阵分解算法的产品推荐。目前，将机器学习投入商用的其他领域包括自然语言处理、图像识别、销售预测、预测性维护、客户流失预测。

　　机器学习能做什么？有哪些产品？

　　只要有了明确的业务目标和支持此业务目标的数据，就可以做许多事。例如，如果业务目标是减少订货后的送货时间，则必须拥有足够的历史数据，以便了解影响送达时间的因素。

　　如何实现机器学习？

　　从一个明确定义的、小范围的项目开始。然后使用开放源码来构建模型。随后使用像 IBM Machine Learning 这样的行业平台来管理模型的生命周期。

　　目前投入商用的语音识别、自然语言处理、图像识别只不过是语音客户服务。基于搜索和深度学习推荐、识别等，是否还有任何其他应用方向？

　　客户服务很关键，但还有其他与机器学习相关的领域。例如，预测性维护是应用机器学习的一个好想法。该想法的理念是使用物联网收集各种设备的信息并预测它们的健康状况，以便可以预防故障。另一个领域是医疗健康，机器学习能帮助诊断，并帮助选择最佳疗法。

　　对于分类，有哪些经典用例？您有何想法或建议？何时需要考虑复杂模型？

　　异常检测是一种经典用例，在该用例中需要对正常和异常情况进行区分。这是一个二类或二元分类问题。这包括欺诈检测（正常与欺诈）、预测性维护（正常操作与故障）、医疗健康（正常与疾病）等。我建议从简单模型开始，比如逻辑回归，如果准确性不够高且有大量训练数据，那么可以寻找一些更复杂的模型，比如梯度提升决策树或深度学习。

　　您是否认为机器学习现在存在着泡沫/炒作？

　　是的。我认为深度学习被吹嘘过度了，而且人们的期望有些不切实际。深度学习很好，而且它实现了计算机视觉和自然语言处理上的突破。但这需要大量的投资和数据。大多数公司都没有足够的数据来让深度学习发挥作用。此外，在许多更适合使用机器学习技术的领域，深度学习不是首选的技术。我希望深度学习的优势和局限性得到更好的一般性解释。

　　为什么深度学习更偏向于学术，而不是行业？

　　这种情况正在快速改变。效力于 IBM、Facebook、Google 等公司的大部分高级团队都不是学术性质的。但是，深度学习仍停留在研究阶段，尚未达到工程设计阶段。一个原因是深度学习未得到深入理解。设计正确的网络架构仍是少数人掌握的艺术。

　　您对迁移学习有何看法？

　　这是个不错的想法。迁移学习可以在训练复杂模型时节省大量时间。

　　如果深度学习的性能优于任何其他算法，它是否可能取代其他经典的机器学习算法？

　　深度学习在声音和图像方面具有更好的性能，但在其他领域没有突出表现。由于深度学习仍未取得良好结果，或者由于没有足够的训练数据，其他经典机器学习算法在一段时间内仍有许多机器学习应用。

　　无监督学习的行业应用方向有哪些？

　　我认为无监督学习不会被广泛用作一项独立技术。无监督学习通常被用作监督式学习的一个预处理步骤。例如，建立数据集群，然后使用集群 id 作为新特性，这有助于提升监督式机器学习算法的性能。

　　如果企业打算使用机器学习，应该如何开始使用它？技术门槛高不高？哪些行业拥有这种机会？

　　企业需要先在小型的、明确定义的项目上训练数据科学家。企业可以通过在线课程将他们的员工培训成数据科学家，比如 coursera 上的斯坦福机器学习课程。但是只有培训还不够，人们必须进行实践。一种不错的实践方式是参与机器学习竞赛。一些网站举办了这类竞赛。

　　强化学习有何难处？它是否更接近通用的 AI？

　　强化学习旨在获知下一步最佳行动。在可能操作数量有限的领域，比如棋类游戏 (Go) 或 Poker，强化学习取得了巨大成功。如何才能将这些成功扩展到可能操作数量无限的实际情况中，让我们拭目以待。如果我们能实现此操作，那么我们就离通用 AI 更进了一步。

　　我正在尝试预测采用机器学习的产品的价格。在经过训练的数据中，产品的价格和其他参数是已知的。我想知道我应采取哪种算法，监督式算法还是无监督算法？IBM 的当前产品能派上用场吗？

　　您需要使用回归算法。我猜您既想了解艺术图像，又想了解元数据，比如艺术家、创作年份、尺寸、材料等。我推荐采用深度学习来处理这些图像，采用经典机器学习来处理其余信息。我最喜欢的经典机器学习算法是梯度提升决策树，比如 XGBoost 或 LighGBM。我们打算在 IBM ML 中支持这些算法。

　　您认为机器学习中存在隐私问题吗？

　　是的，肯定存在。考虑将机器学习用于医疗健康领域，例如根据肺部放射学信息来诊断癌症。要训练机器学习模型，需要获得大量的肺部放射学信息样本。如果不小心处理，就有可能从训练数据中识别出谁患有癌症和谁没患癌症。这是一种严重的隐私泄漏，这种举动在一些国家可能是非法的。处理这种情况的一种方法是在将数据发送到机器学习程序之前对它进行匿名化。

　　是否可以结合使用深度学习与传统编程？NTM 的发展是否会取代一些程序的发展？

　　我不确定我是否正确理解了这个问题。如果您问的是结合使用深度学习与传统机器学习，答案当然是肯定的。例如，如果您的训练数据是图片和结构化数据的组合，您应该采用一种集成方法。使用图片训练深度学习模型，使用剩余特征训练经典机器学习模型，然后使用第三个分类器将前两个模型的预测结果作为输入。

IBM机器学习CTO给2190名知乎网友的一封信

相关阅读：

相关推荐：