半导体神器含光800 AI处理器闪耀登场GPU对手不敌三大场景性能飙升4-11倍
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可谓是高调亮相。今年,在阿里线上云栖举行的一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核、拍立淘等。”更值得关注的是,在具体应用中的表现。
尽管含光800尚未对外发售,其性能通过阿里云输出。正如去年的文章所说,即使科技巨头自研芯片,也是因为有大量数据以及内部AI需求的驱动,以提升效率和性价比为目的。周五的线上分享中,龙欣也指出,由于内部广阔的AI应用范围,从电商应用到视觉应用,再到语音交互、自然语言理解及机器翻译等领域,都需要强大的AI能力来支撑。
例如拍立淘,每天有两千多万用户使用其功能进行商品搜索和个性化推荐,这种复杂任务显然需要高度优化的一套算法体系。而为了提升性价比,以及从硬件到软件方案上的全面优化,阿里的目标就是通过自主研发而非依赖第三方提供解决方案。
关于包含深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN及DeepLab等模型进行精细调整,以及高能效、高密度计算与存储特点,以及软硬协同支持权重稀疏压缩等一系列技术特色,这些都是为了实现最佳效果而设计并实现的一系列创新措施。
此外,还有量化加速策略,如INT8/INT16量化加速以及FP16/BFP16向量计算,并且还能支持未来新型激活函数,使得这款处理器既具有极致性能,又保持着一定程度上的灵活性。在业界标准ResNet-50测试中,可达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍之高。但是在昨天分享中并没有提及峰值性能,而是重点强调了其可用性及其在实际场景中的优势。
为了让客户能够轻松开箱即用地使用含光800 NPU 实例,便于自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7 和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow 和MXNet示范教程。此外,他还特别指出了三个关键场景:城市大脑检测速度提高四倍;拍立淘商品库识别时间缩短至5分钟;行人检测增加到100路视频,与GPU相比提升4倍;车辆检测则达到85路视频,与GPU相比提升8.5倍。
最后,对于直播内容质量增强来说,它可以达到500 FPS,对比主流GPU只有50 FPS,有10倍以上性能加快。在点播HDR环境下,它虽然无法匹敌A100训练GPU,但仍旧实现6.6倍性能加快,比A100训练GPU10FPS要优秀许多。尽管如此,没有详细解释其他领域如语音交互或自然语言理解方面如何利用含光800带来的优势。不过,我们看到了一条清晰路径:自主开发不仅限于硬件,更重要的是将这些先进技术有效地融入现有的生态系统以促成全面的变革过程。