入门必读！一堂来自NVIDIA的深度学习公开课(5)_

　　赖博士：其实没有什么本质的不同。我们完全可以把Deep Learning的workload，不管是training还是inference看成是HPC的应用。这也是为什么现在做DL的infrastructure一般都采用的HPC模式。像通信接口采用MPI。这里面追求的核心是performance，而不是扩展性，容错性，等等。

　　提问八：GPU Server的计算能力和memory之间有瓶颈吗？有的话是在内存（DRAM, HBM）带宽，还是内存和存储（SSD, 3D point）之间的带宽？（来自@王楠-中科创达-战略投资经理）

　　赖博士：计算能力跟内存（DRAM）到底谁是瓶颈取决于应用大致是compute bound还是memory bound的。

　　一般来讲，至少我看到的例子，不太会反复地对存储进行大量数据的读写，如果真有这样的应用的话，那很有可能存储的带宽会变成瓶颈。GPU的计算能力跟memory带宽量级都较存储带宽高很多。更多的情况是，预先把数据都load 到memory（CPU或者GPU），或者存储里的数据地访问，相对于后续的处理是相对少量的。

　　提问九：谢谢赖博士精彩的报告。我们对瞳孔识别的定位帧率和精确度有比较高的要求，我们自己普通PC上做到了120HZ左右。但想更快。不知道有没有可能利用DL进一步提升。NVIDIA有训练相关的模型或者库，支持相关的开发吗？（来自@范杭-弥德科技-裸眼3D游戏）

　　赖博士：这个太专了。我首先不清楚DL用在你们的应用里面是否能达到足够的，你们需要的精度。其次，一般来讲，DL相对于传统的方法的计算量需求都大。所以一般不太会有为了提高计算速度而采用DL的。一般都是为了提高精度（当然是可能的前提下），牺牲一些计算量，来用DL。

入门必读！一堂来自NVIDIA的深度学习公开课

转载请注明出处。