阿里含光800 AI处理器亮相后在人物场景下的性能大放异彩高达GPU的4-11倍手机CPU天梯图显示

在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这次发布引发了巨大的关注,确实是一场高调的亮相。

今年的线上云栖大会有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速。”更令人关注的是含光800在具体应用中的表现。

虽然含光800还未对外发售,但其性能通过阿里云输出。正如去年雷锋网所说,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也表示,阿里巴巴内部有广阔的AI应用,如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

拍立淘作为一个典型案例,每天要处理两千多万用户使用图片搜索商品,而这个过程需要很强的AI能力。因此,阿里希望通过自研的含光800从硬件到软件方案提升性价比。

除了这些,还包括深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型优化、高能效低延时、高密度计算与存储支持权重稀疏压缩等功能。此外,它还指令集支持可编程模型扩展,可以直接加速各种激活函数,并且保持一定灵活性,再匹配全栈软件支持实现高性价比。在业界标准ResNet-50测试中,其推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍之高。

不过,在昨天分享中并没有提及峰值性能,而是强调其可用性。他表示,“包含于此,我们让购买实例用户可以自动安装NPU驱动和SDK。”为了让它能够开箱即用,还提供公共镜像CentOS 7.6/7.7和Ubuntu 16.04预装主流深度学习框架,如TensorFlow/MXNet示范教程。目前在具体应用中相比GPU有4-11倍性能提升。

去年给出的数据是在城市大脑中实时处理杭州主城区交通视频,只需4颗而非40颗传统GPU才能完成任务。在行人检测应用中,一台4核设备克服100路视频,比主流GPU25路推理性能提升四倍。而车辆检测同样一台设备85路视频,比主流GPU10路推理性能提升八点五倍。在内容识别应用中的ResNet50 V2模型,一台4核设备帧率达到20000 FPS,比主流GPU1800 FPS增加11倍;Inception V4模型4000 FPS,比460FPS增加十点八折;直播视频增强400 FPS,对比50FPS增加十倍;HDR点播66 FPS,对应英伟达A100训练10 FPS,可实现六点六倍加速度。

至于语音交互或自然语言理解等方面尚无详细展示。不过,即便如此,这次会议对于实际落地优势提供了一些见解。但由于贸易关系紧张,使得相关话题更加谨慎。这只是开始阶段,无论如何,都值得期待接下来的发展。