阿里含光800 AI处理器亮相后在人物识别场景中性能高达4-11倍相当于骁龙天玑9200水平

在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了他们的首款AI芯片含光800。这款当时最强大的AI推理芯片的发布引发了巨大的关注,可以说是高调亮相。

今年的阿里线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核拍立淘等。”

更值得关注的是含光800在具体应用中的表现。虽然它还未对外发售,但其性能通过阿里云输出。

正如去年雷锋网文章中所说,由于自研芯片受到大量数据驱动,在内部广泛需求下,以提升效率和性价比为目的。周五的线上分享中,龙欣也表示,对于电商应用、视觉应用、语音交互、自然语言理解和机器翻译等广阔领域有着深入研究。

例如拍立淘,其日活用户数千万,在使用功能时要通过一张图片,从4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要很强的大数据处理能力。

因此,希望通过自研硬件到软件方案来提升性价比。简单回顾一下,其中包括:

深度优化CNN及视觉类算法

加速卷积和矩阵乘,同时支持反卷积、孔洞卷积、三维卷积插值ROI等

针对ResNet-50/SSD/DSSD/Faster-RCNN/Mask-RCNN/DeepLab等模型优化

高能效低延时、高密度计算与存储减少I/O需求

软硬协同支持权重稀疏压缩计算量化压缩指令集可编程模型扩展除INT8/INT16量化加速,也覆盖FP16/BFP16向量计算直接加速各种ReLu/Sigmoid/Tanh等新型激活函数

这意味着含光800特别针对CNN算法设计,但保持一定灵活性,再结合全栈软件支持特定应用和算法实现高性价比。在去年发布时,“在业界标准ResNet50测试中,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名3.3倍。”不过昨天分享没有提及峰值性能,而是在强调其可用性。

为了让含光800能够开箱即用,上述系统方面提供公共镜像CentOS 7.6/7.7Ubuntu 16.04,还预装主流深度学习框架TensorFlow/MXNet示范教程。

最后,他强调“目前在具体应用中相比GPU有4~11倍性能提升。”

至此,我们了解到包含三大场景:行人检测车辆检测内容识别各展示了显著优势:

在行人检测应用中,与主流GPU相比增加100路视频,即使使用四核NPU克服这个挑战。

在车辆检测中的情况下,与主流GPU相比增加85路视频,即使使用四核NPU克服这个挑战。

在直播点播HDR(High Dynamic Range)内容质量增强方面,与主流推理GPU相比每秒处理帧数提高10倍,使得点播HDR需A100训练但我们的速度仅需六分之一。

此次共享信息较少且没有详细描述其他语言相关场景,如语音交互或自然语言理解。此可能是由于当前贸易紧张关系影响相关话题讨论。而尽管团队快速开发出新型芯片,但实际落地仍然需要长时间,这过程软件作用更加直接获得客户认可采用也不容易。

标签: 数码电器测评