社会焦点

成立1年估值超10亿 与谷歌飙技术 90后CEO如何做到(2)

字号+ 作者: 来源: 2017-04-28

GPU不仅有更强大的并行处理能力,还有更加强大的控制数据流和储存数据的能力,因此可以令神经网络训练的速度提升10-20倍,从而能够将原本要数周甚至几月的训练时间缩短至数天。深度学习分为训练(Training)和应用

  GPU不仅有更强大的并行处理能力,还有更加强大的控制数据流和储存数据的能力,因此可以令神经网络训练的速度提升10-20倍,从而能够将原本要数周甚至几月的训练时间缩短至数天。深度学习分为训练(Training)和应用(Inference)两部分,尤其是在训练阶段,其所需的数据计算之大,远不是曾经CPU时代的人们敢于去想象的。

  这对专注于GPU生产的英伟达来说,确实是一个好消息,英伟达在去年的股价飙升也证明了这一点。然而这消息对于全世界最大的CPU制造商英特尔来说,就没那么友好了——不过,做不好我们可以买呀,2015年12月29日,踩着2015的尾巴与2016的前头,英特尔宣布以167亿美元全资收购FPGA/CPLD公司阿尔特拉(Altera),至于阿尔特拉和前文提到的塞灵思(Xilinx)的关系嘛,大概就像是肯德基和麦当劳。

  咦?不是说好的GPU吗?为什么聊起了FPGA?

  FPGA(Field Programmable Gate Array)全称“可编程门阵列”,是作为专用集成电路领域中的一种半定制电路而出现的,既解决了全定制电路的不足,又克服了原有可编程逻辑器件门电路数有限的缺点。

成立1年估值超10亿 与谷歌飙技术 90后CEO如何做到

(赛灵思推出的UltraScale架构FPGA)

  简单来说, FPGA的“可编程”指的是可以用户通过重新配置逻辑资源来不停尝试,通过编辑不同的配置文件把同一个FPGA进行不同属性的设置,直到获得最佳方案,非常灵活。而深度学习作为一门尚在发展中的技术,FPGA的这种灵活、可编程、允许试错的特性对它来说是非常友好的,这是第一点。

  除了灵活性外,第二点则是功耗。一块GPU的功耗动辄100W、200W,功耗巨大。虽然英伟达也推出了面向嵌入端的GPU设备(比如Jetson TX2系列,其标准功耗为7.5W/15W),但对于无人机、安防摄像头这种功耗敏感型的硬件端来说则仍旧会存在功耗过大、发热、过度影响电池续航等问题,而功耗能做到3W、4W的FPGA此处优势凸显。

  第三点则是延迟问题,虽然GPU的运行速度比FPGA快,但是GPU的高性能来自于它的并行处理能力,训练时效果很好,但在应用时一次性只能处理一张输入图像,优势不能完全发挥,造成延时。

  不过,GPU由于峰值计算性能高、内存接口带宽高等优势,依旧是目前深度学习训练阶段的最佳选择。但在应用方面,FPGA的灵活、低功耗、而且价格相对低廉等优势开始凸显。目前国内外不少大公司开始逐渐注意到维护、采购、散热、内部损耗成本等问题,开始逐渐将FPGA引入自己的系统内,比如去年亚马逊和赛灵思合作,推出了基于FPGA的亚马逊云服务、百度大脑使用了基于FPGA版的AI专有芯片、腾讯云也发布FPGA云服务器等等,市场接受度正在不断提升。

三、产品落地:DPU与深度压缩

  虽然FPGA有种种好处,但是也存在一个大问题,那就是开发难度。由于传统FPGA开发需要使用硬件描述语言(Verilog或VHDL)而不是传统的计算机语言(比如C语言),程序员需要在FPGA公司提供的编译器基础上进行二次开发,造成了开发难度大、开发周期长(一般需要3-6个月)等问题,所以很多公司不愿意使用它。

  深鉴相当于给这些不愿意直接使用FPGA的厂商提供了一个带接口的黑盒子,厂商把自己的算法模型训练好之后,将模型与数据通过接口传入,由深鉴科技进行压缩和编译,生成的指令可以在FPGA上运行,厂商直接得到需要的输出结果。

  为此,深鉴科技提出了“DPU”这一概念,DPU(Deep Learning Processing Unit,深度学习处理单元),相当于把压缩、编译、执行的整个“黑盒子”过程具象化,最后的落地形态是一块板卡。

成立1年估值超10亿 与谷歌飙技术 90后CEO如何做到

成立1年估值超10亿 与谷歌飙技术 90后CEO如何做到

(上:亚里士多德板,用于嵌入端。下:笛卡尔版,用于大数据端)

  其中压缩的这一环节尤为值得一提,由于跟GPU相比,FPGA在带宽上存在一定劣势。而深鉴科技的联合创始人兼首席科学家韩松(对,就是FPGA 2017、ICLR 2016等大会上拿奖拿到手软那个韩松)正在研究“深度压缩”(Deep Compression)技术,他的获奖论文中解释了如何利用深度压缩将神经网络压缩数十倍而不影响准确度,从而降低计算复杂度、存储空间、以及带宽对其的限制。

  姚颂还告诉智东西,每套DPU并不需要根据不同公司而定制不同的板卡,只要是同类应用都可以复用。“比如公司A想要做车牌(识别),公司B想要做人脸(识别),这些公司只需要自己换不同的算法模型接入就行,DPU可以复用。”

成立1年估值超10亿 与谷歌飙技术 90后CEO如何做到

(搭载有深鉴板卡的无人机)

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章