闪耀智慧含光800 AI芯片GPU比拼强劲四至十一倍
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短的介绍了阿里首款AI芯片含光800,这款当时最强AI推理芯片的一发布就引发了巨大关注,可谓高调亮相。
今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,大规模图像视频审核、拍立淘等。”
更引人关注的是含光800在具体应用中的表现。
包含深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、孔洞卷积、3D卷积、插值、ROI等,以及针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化。同时,它具有高能效、高密度计算与存储以及软硬协同支持权重稀疏压缩和计算量化压缩。
去年张建锋发布含光800时说,“在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。”
不过龙欣在昨天的分享中并没有提及含光800的峰值性能,而是强调其可用性。他表示,“作为并没有在公开市场发售的芯片,我们通过阿里云输出。”
为了让用户能够开箱即用,我们提供自动安装NPU驱动和SDK,并且系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow 和 MXNet。
至于实际应用中的性能提升,他给出了三个典型场景:
在行人检测应用中,由于4核处理器可支持100路视频,其速度比主流GPU快四倍。
在车辆检测应用中,由于4核处理器可支持85路视频,其速度比主流GPU快8.5倍。
在内容识别应用中的ResNet50 V2模型中,由于4核处理器帧率为20000 FPS,比主流GPU高速10倍。
此外,在直播质量增强方面,由于4核处理器直播视频增强性能为500 FPS,对比主流GPU仅为50 FPS,其速度提升达到了10倍。在点播HDR环境下,也展示了显著提升。