阿里含光800 AI处理器高调亮相26家芯片企业力挺华为后三大人物场景应用性能比GPU高4-11倍
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这次发布不仅引发了巨大的关注,也可谓高调亮相。今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,图像视频审核,以及拍立淘等。”更值得关注的是,在具体应用中的表现。
虽然含光800尚未对外发售,但其性能通过阿里云输出。正如去年雷锋网文章所说,由于科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也表示,对于广阔的AI应用领域来说,其中包括电商应用、视觉应用、语音交互、自然语言理解以及机器翻译等。
拍立淘作为典型案例,其日活用户数量过千万,每天要处理4亿多商品图片及30多亿张图片库进行匹配,并根据用户习惯推荐商品,这种强大的AI能力就是通过含光800实现的。因此,加强硬件到软件方案,以提升性价比,是阿里的目标之一。在硬件方面,有三个特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型如ResNet-50、SSD/DSSD、Faster-RCNN等进行优化。
除此之外,还有高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩和量化压缩指令集支持可编程模型扩展。此外,还覆盖FP16/BFP16向量计算直接加速各种激活函数,如ReLu、Sigmoid、Tanh等,同时保持一定灵活性以适应新型激活函数未来扩展需求。
据去年张建锋发布时所言,“在业界标准ResNet-50测试中,其推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍”。不过昨天龙欣并没有提及峰值性能,而是强调其可用性。他表示:“包含NPU驱动和SDK,可以自动安装。”
为了让使用者能够开箱即用系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主流深度学习框架提供TensorFlow/MXNet示范教程。在三大场景中,即城市大脑行人检测车辆检测内容识别显示了4-11倍性能提升。这表明在行人检测中四核含光800可以支撑100路视频,比主流GPU25路提高4倍;车辆检测中相同配置可以支撑85路视频,比主流GPU10路提高8.5倍;而且在直播视频增强点播HDR还有显著优势。
至于语音交互自然语言理解等语言相关领域举例子还未给出详细数据。不过从这次分享来看,即便有强大的团队快速设计出一款芯片,大规模落地仍然需要很长时间。这也是软件尤为重要的一部分,因为获得客户认可采用并不容易。