业界 | 深度学习芯片公司Graphcore初探：颠覆GPU、FPGA和CPU的新一代处理器IPU(2)_

「整个模型都处于处理器内部，所以认为内存作用于处理器并不妥当，但处理器具有前所未见的内存级别，进而能够在内部存储这些复杂模型，这使计算得以更高效地部署，来操纵模型中高度稀疏的数据结构……我们拥有能够简化编译器的复杂指令集——如果你能使一个处理器易于编译，就有可能使编译器更具复杂性。若指令集相同，它们会在同一周期中运行，并且我能运行更多操作，从而使编译器更具复杂性。」

图形方法使机器学习用户的结构能够暴露大量并行性（比如，每个顶点可能有 2500 万个参数），这是可以应用于大型并行机器的大量并行计算。但数据中同样存在麻烦的层和关系级别：一个顶点也许能够与几十甚至几千个其他顶点相连接，而这些顶点自身又与许多其他顶点相连。因此，尽管想要将图中的数据映射到传统的线性寻址存储器中，却只有距离最近的两位「邻居」，而真正需要的却是能够在大量存储器中散布的东西（这同样需要进行操作、编写返回等等）。重点在于，我们需要的是能够在几乎无限的存储器带宽约束中收集数据并编写返回的机器。这便是引起一片哗然的稀疏问题，但 Toon 说他们已经完成了这个挑战。

谈及稀疏问题时，Toon 认为用户正将计算元素浪费在大型向量中。「回到训练与推理的矛盾问题。在训练中，你牺牲了内存大小来诱导一些数据并行性，使之适用于一个向量（如为了图像训练而并行化为小批量），并用这些小批量在宽向量的 GPU 上填充向量。但问题的每个计算阶段都要对内存进行乘法运算，所以不可能进行推断，因为有一个新的数据要理解——没有任何一组数据并行且输入机器，而这就是 GPU 在推理中为什么低效的原因」。

Toon 说，训练和推理只是对图形的操作，它的计算密集度更高，因为图形必须通过许多层和迭代来建立正确的特征和权重；但对推理而言，部署这样的服务可能需要数千用户有很大的计算量。「倘若我能成功构建一台能够进行训练和推理，同时在图形结构方面也很高效的机器，那么这将有助于我打造在时间中不断学习、越来越好的未来网络」。

今年下半年我们会得到一个完整的简报，帮助我们把它正确置于游戏中并完全理解其中的互连与核心故事（core stories），更不用说，还包括设备中蕴含大量内存的魔法球环绕在何处。当 CPU 在占有服务器市场，并且在目的过于通用的 GPU 为了互连或带宽而无休止地削减硬件（面对不断增长的模型复杂性）的同时，Toon 也在进行倒计时。

在后续文章中，我们将通过描述 Graphcore IPU 基于 C ++ 和 Python 的「Poplar」软件框架，来给予更多提示。

　　原文链接：https://www.nextplatform.com/2017/03/09/early-look-startup-graphcores-deep-learning-chip/

转载请注明出处。