芯片巨头宣布验证华为正确阿里含光800 AI处理器高调亮相三大场景性能比GPU高4-11倍
在2019年杭州云栖大会上,阿里巴巴集团的首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这款当时最强大的AI推理芯片的高调亮相,立即引发了广泛关注。
一年之后,在2020年的线上云栖大会上,阿里云异构计算产品研发总监龙欣分享了含光800推出后的最新进展。他表示,含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。该实例支持8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,应用包括城市大脑、图像视频审核以及拍立淘等。
更令人振奋的是,含光800在实际应用中的表现。尽管它尚未对外发售,但其性能已经通过阿里云输出。在去年的文章中,我们提到科技巨头自研芯片是为了满足内部庞大的AI需求,并希望通过自研硬件提升效率和性价比。龙欣也指出,作为一个典型案例,如拍立淘,它需要处理两千多万日活用户生成的大量图片,以便于搜索商品并进行个性化推荐,这种强大的AI能力正是由含光800提供支持。
包含深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩和计算量化压缩等特点,使得含光800成为针对CNN算法模型设计的一款具有灵活性的芯片。此外,它还能够覆盖FP16/BFP16向量计算除直接加速各种ReLu、Sigmoid、Tanh等激活函数,也可支持未来新型激活函数。
去年张建锋宣布,当涉及业界标准ResNet-50测试时,该芯片的推理性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;而且,其能效比500 IPS/W,是第二名的3.3倍。但是在昨天分享中,没有提及具体峰值性能,而是强调其可用性,即使它没有公开市场销售,只不过通过阿里云输出以便于开箱即用。
为了确保用户使用方便,一旦购买实例,便可以自动安装NPU驱动和SDK,同时系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架如TensorFlow、MXNet,并提供示范教程。在三大场景中,比GPU有4-11倍性能提升,其中包括城市大脑识别视频延迟减少一半,从40颗传统GPU降至4颗;拍立淘商品库每天新增10亿商品图片从1小时降至5分钟;以及行人检测应用中100路视频从25路提升四倍,或车辆检测85路视频从10路提升8.5倍。此外,在直播内容识别应用中的帧率提高11倍,在HDR点播质量增强中则为10倍加速。
虽然今年关于含光800的话题并不如去年那么热烈,但这一切表明,无论如何,都不能忽视这项技术发展对于未来数字经济时代所带来的潜力。而且,由于当前国际贸易环境紧张,对于此类话题保持谨慎也是必然之举。不过,最终落地这些先进技术将依赖软件开发者及其合作伙伴来实现客户认可与采用,因此,这只是一个起步阶段,而下一步将会更加引人注目。