数字芯片革命阿里含光800 AI处理器闪耀亮相GPU竞争者在高效场景下被超越4-11倍
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可谓是高调亮相。今年,在阿里线上云栖举行的一场芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核、拍立淘等。”
更令人关注的是含光800在具体应用中的表现。在去年的文章中,我们提到科技巨头自研芯片,是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用,这些应用包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型案例就是拍立淘,它拥有两千多万日活用户。在使用这项功能的时候,要透过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要很强的大规模处理能力。
因此,为了提升这种硬件到软件方案上的性价比,加速卷积和矩阵乘,同时支持反卷积、三维卷积以及插值操作,以及针对特定模型如ResNet-50优化;同时提供高能效低延时、高密度计算与存储减少I/O需求;并且提供软硬协同支持权重稀疏压缩和量化压缩,以及指令集支持可编程模型扩展。
去年张建锋发布含光800时说,“在业界标准的ResNet-50测试中,其推理性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过昨天龙欣没有提及含光800峰值性能,而是强调其可用性。他表示:“作为并没有公开市场发售的芯片,由于我们输出它,所以它能够开箱即用。”
为了让购买实例的人员能够自动安装NPU驱动和SDK,还预装主流深度学习框架,如TensorFlow 和MXNet,并提供示范教程。此外,他还强调其主要是在数据中心或大型端上的CNN类模型加速,以此为基础,可以扩展到其他DNN模型。目前在具体场景中的相对于GPU,有着4-11倍性能提升。
去年给出的数据显示,在城市大脑中的实时处理杭州主城区交通视频,只需4颗含光800而不是40颗传统GPU,就能降低延时至150ms。而拍立淘商品库每天新增10亿商品图片,用传统GPU算力识别需要1小时,但用含光800后只需5分钟。
昨天分享给出的最新数据显示,在行人检测应用中,一台4核NPU设备可以支撑100路视频,比主流GPU25路增加了四倍。在车辆检测方面,一台相同配置设备可以支撑85路视频,比主流GPU10路增加八成五倍。在直播内容识别方面,一台4核NPU设备可以实现20000 FPS帧率,比主流推理GPU1800 FPS提高11倍。而点播HDR则展示了一次6.6倍加速比,与英伟达A100相比,即便后者训练完善但只能达到10 FPS,而包含包含66 FPS效果显著增强。
尽管如此,对于语音交互或自然语言理解等领域具体优势的情况,没有详细说明。不过,从所述信息看来,当涉及到三大场景(城市大脑、大规模图像数据库查询以及复杂视觉任务)的落地实际操作时,该系统显然具有明显优势,即使是在较为复杂的情境下仍旧保持竞争力,因为这些工作负载通常依赖高度并行且快速执行任务,因此它们特别受益于专门设计用于这些类型工作负载的大规模处理器,如本文所述。