阿里含光800 AI处理器亮相后在人物场景下的性能大显神威高达GPU的4-11倍

在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这次发布引发了巨大的关注。今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,大型图像视频审核和拍立淘等。”更值得关注的是含光800在具体应用中的表现。

去年科技巨头自研芯片被认为是因为内部大量数据驱动AI需求,以提升效率和性价比为目的。周五的线上分享中,龙欣也表示,阿里巴巴内部有广阔的AI应用领域,如电商、视觉、语音交互、自然语言理解、机器翻译等。

一个典型的例子就是拍立淘,它拥有两千多万日活用户,在使用这项功能时要通过一张图片,从4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要强大的AI能力。

因此,希望通过自研硬件到软件方案提升性价比。简单回顾一下,其中包含深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型如ResNet-50、高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等特色设计。

去年发布时说,“在业界标准ResNet-50测试中,其推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过昨天的分享并没有提及其峰值性能,而是强调其可用性。他表示,“作为并没有公开市场发售的芯片,我们通过Arliyun输出。”

为了让含光800能够开箱即用,让购买实例用户自动安装NPU驱动和SDK,还预装主流深度学习框架提供TensorFlow、MXNet示范教程。龙欣强调,其应用主要是在数据中心大型端,以CNN类模型推理加速为主,可扩展到其他DNN模型中。目前在具体场景相比GPU有4-11倍性能提升。在行人检测应用中,可以支持100路视频,比主流GPU 25路增强4倍。在车辆检测中,可以支持85路视频,比主流GPU10路增强8.5倍。在内容识别应用中的ResNet50 V2模型,可以达到20000 FPS,比主流推理GPU1800 FPS增幅11倍。而直播视频增强性能为500 FPS,对比主流推理GPU50 FPS,加速比10倍。在点播HDR中,为66 FPS,有6.6倍加速度优势。不过关于语音交互自然语言理解方面还未给出数据。此次共计15分钟介绍,没有太多新信息,但仍显示了其实际应用优势可能存在的问题,即需时间落地且获得客户认可不易。这也是为什么此次会议对它关注度并不高的一个原因。但我们应该看到,即便团队快速设计出一款芯片,大规模落地仍需很长时间,这个过程软件发挥直接作用,而获取客户采用也不容易。这意味着对于下一代AI芯片何时发布,我们仍需耐心观望下去。