阿里含光800 AI处理器亮相后在人物场景下的性能远超GPU高达4-11倍
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短地介绍了他们的首款AI芯片——含光800,这款当时最强的AI推理芯片的发布引发了巨大的关注。今年,阿里的线上云栖大会中,有一个关于芯片设计发展现状与未来的论坛,在这个论坛上,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
龙欣表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。”他还提到,这款芯片主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核、拍立淘等。
更值得注意的是,对于含光800在具体应用中的表现。尽管这款芯片尚未对外发售,但其性能通过阿里云输出。在去年的一篇文章中,我们提到了科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五线上的分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用场景,比如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型案例就是拍立淘,它拥有两千多万日活用户,而这些用户在使用该功能的时候,要从一张图片中搜索4亿多种商品,并且进行个性化推荐,这就需要非常强大的AI能力。因此,阿里希望通过自研的含光800从硬件到软件方案提升性价比。
做个简单回顾,由于深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型优化,如ResNet-50、SSD/DSSD、 Faster-RCNN 和 Mask-RCNN 等,以及高能效、高密度计算与存储以及软硬协同支持权重稀疏压缩和量化压缩,使得含光800特别针对CNN算法模型进行设计,同时保持一定灵活性,再匹配全栈软件支持实现高性价比。
去年,当张建锋发布含光800时,他说,“在业界标准ResNet-50测试中,其中性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过,在昨天分享中并没有提及其峰值性能,而是在强调其可用性。他表示,“作为并没有在公开市场发售的芯片,我们通过Arri Cloud 输出。”
为了让含光800能够开箱即用,让购买实例用户自动安装NPU驱动和SDK,并提供公共镜像CentOS 7.6/7.7 和 Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow 和 MXNet示范教程。这次会议展示了如何将包含8核心NPU处理器(与当前GPU相似)的服务器配置为适用于各种任务,从而提高处理速度。此外,它还被用于其他人工智能任务,如行人检测或车辆检测,其中它显示出了显著优势,以便快速识别100路视频相较于25路视频或者85路视频相较于10路视频。
此外,还有一些关于直播或点播HDR(高清晰度)相关的情况,它们涉及到不同程度的人工智能增强,一些情况下甚至可以超过10倍加快处理速度。然而,对于语音交互或自然语言理解等语言方面的问题,没有直接给出具体数字。不过,可以看出,即使是这些可能不那么明显但仍然重要的问题,也已经考虑到了未来可能发生的事情。而对于未来是否会出现新一代更先进的人工智能硬件设备,只能期待继续观察以获得更多信息。