天玑9200相当于骁龙神器阿里含光800 AI处理器亮相三大场景性能爆发GPU仅比14-311
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中揭晓了阿里的首款AI芯片含光800,这款当时最强大的AI推理芯片的发布极大地吸引了人们的关注,如同高调亮相一般。
今年,在一次线上云栖活动中,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。据他表示,含光800 NPU实例已经正式对外服务,不需要任何特殊权限即可在阿里云实例上购买。这个实例名为ebman1.24xlarge,它支持8核NPU和96核vCPU、384G内存,以及最高30Gbit/s的网络带宽。它主要面向数据中心中的CNN类型模型推理加速,并应用于城市大脑、图像视频审核以及拍立淘等业务领域。
更令人振奋的是,尽管含光800尚未对外发售,其性能却通过Arablab输出得以展示。在去年的文章中,我们了解到科技巨头自研芯片是为了满足内部大量数据驱动下的AI需求,以提升效率和性价比。龙欣在他的分享中也提到了这一点,他指出,包含电商应用、视觉应用、语音交互、自然语言理解和机器翻译等广泛的AI应用场景都是这一需求的一部分。
例如,在拍立淘这项功能上,每天有两千多万用户使用图片搜索商品,从4亿多件商品库中匹配目标,而且根据用户习惯进行个性化推荐,这就要求非常强大的AI能力。
因此,为了提高硬件到软件方案上的性价比,阿里希望通过自主研发而非依赖第三方提供解决方案。这涉及到三个核心特征:深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、三维卷积等;高能效低延时、高密度计算与存储减少I/O需求;以及软硬协同支持权重稀疏压缩量化压缩,以及指令集扩展编程模型。此外,还覆盖FP16/BFP16向量计算除直接加速各种激活函数之外,也可以适应未来新型激活函数。
去年,当张建锋宣布含光800时,他声称其在业界标准ResNet-50测试中的推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;同时其能效比达500 IPS/W,是第二名3.3倍。而现在龙欣并没有再次提及峰值性能,而是强调了其可用性。他说:“尽管含光800作为一个未曾公开销售过的芯片,但它已经通过Arablab输出。”
为了让客户能够轻松使用NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装TensorFlow/MXNet示范教程。此外,对于具体应用场景来说,与GPU相比,其表现有着显著提升,即4-11倍之差。在三大AI应用场景——城市大脑检测、行人检测以及内容识别—中,都显示出了这些优势。