中国芯片排行榜2022最新阿里含光800 AI处理器震撼亮相三大场景性能超越GPU4-11倍
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中揭晓了阿里的首款AI芯片含光800,这款当时最强大的AI推理芯片的发布极大地吸引了人们的关注,为其高调亮相赢得了广泛赞誉。
今年,在一次关于芯片设计发展现状与未来的论坛上,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。据他表示,含光800 NPU实例已经正式对外服务,不需要任何白名单即可在阿里云实例上购买。他详细说明了该实例支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s,并且主要面向数据中心的CNN类型模型推理加速,适用于城市大脑、图像视频审核以及拍立淘等业务场景。
更值得关注的是,在实际应用中的表现。尽管含光800尚未对外发售,但通过Arababa Cloud输出的性能数据显示其优势。在去年的文章中提到过,科技巨头自研芯片是由于大量内部数据需求所驱动,以提升效率和性价比。而在周五线上的分享中,龙欣也指出了这一点,他说:“我们内部有广阔的AI应用领域,如电商应用、视觉应用、语音交互、自然语言理解和机器翻译等。”
例如,对于拍立淘这样的应用,其日活用户数超过两千万,每天要处理四亿多商品图片及三十亿多张图片库中的匹配工作,以及根据用户习惯进行个性化推荐,这就需要极强的大规模并行计算能力来实现。因此,阿里希望通过自研硬件方案从而提升整体性价比。
深入分析可以看出,有三个方面是包含此次发布硬件优化特色的:深度优化CNN及视觉类算法;加速卷积和矩阵乘以支持反卷积、三维卷积及插值操作;针对ResNet-50/SSD/DSSD/Faster-RCNN/Mask-RCNN/DeepLab等模型进行专门优化。此外,还有高能效低延迟、高密度计算与存储减少I/O需求以及软硬协同支持权重稀疏压缩和量化压缩等功能。
除此之外,它还具有灵活性的指令集,可以扩展至未来新型激活函数,并覆盖FP16/BFP16向量计算,同时能够直接加速各种ReLu/Sigmoid/Tanh激活函数。这意味着含光800特别针对CNN算法设计,但保持一定程度的灵活性,再结合全栈软件支持,在特定场景下实现高效率。
去年,当张建锋发布含光800时,他宣称它在业界标准ResNet-50测试中达到了78563 IPS,比目前业界最好的AI芯片性能高4倍,而能效比500 IPS/W,是第二名3.3倍之多。不过,此次分享中没有提及具体峰值性能,而是重点强调其可用性,即便作为尚未公开市场销售的一款产品,它已被提供给购买实例用户自动安装NPU驱动与SDK系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主流深度学习框架提供TensorFlow/MXNet示范教程。
最后,由于目前贸易紧张情况下的谨慎态度,使得今年对于这个话题讨论不如去年热烈。但更应该看到的是,即使有团队快速开发一款如此先进芯片,大规模落地仍需很长时间,这个过程软件发挥着更加直接作用获得客户认可采用并不容易。