阿里含光800 AI处理器亮相人物场景性能远超GPU
在2021年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800。这款当时最强的AI推理芯片的发布吸引了广泛关注,成为了高调亮相的焦点。
一年之后,在2022年的线上云栖大会中,阿里云异构计算产品研发总监龙欣分享了含光800推出后的一年来的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU、384G内存和网络带宽最高达到30Gbit/s。”这款芯片主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核以及拍立淘等应用。
更值得关注的是含光800在具体应用中的表现。尽管它尚未对外发售,但其性能通过阿里云输出。正如去年雷锋网报道的那样,这些科技巨头自研芯片是因为有大量数据,在内部AI需求驱动下,以提升效率和性价比为目的。
一个典型应用场景就是拍立淘,其日活用户数超过两千万。在这个功能中,他们要通过一张图片,从4亿多商品中搜索,并在30多亿张图片库中进行匹配,同时根据用户习惯进行个性化推荐,这需要非常强大的AI能力。因此,阿里希望通过自研硬件到软件方案来提升性价比。
包含以下几个方面:
深度优化CNN及视觉类算法
加速卷积和矩阵乘,并支持反卷积、孔洞卷积、3D卷积、插值ROI等
针对ResNet-50/SSD/DSSD/Faster-RCNN/Mask-RCNN/DeepLab等模型优化
高能效低延时、高密度计算与存储减少I/O需求
软硬协同支持权重稀疏压缩计算量化压缩指令集可编程模型扩展
除INT8/INT16量化加速,还覆盖FP16/BFP16向量计算直接加速各种ReLu/Sigmoid/Tanh等,也可支持新激活函数。此外,它保持一定灵活性,再匹配全栈软件支持特定应用和算法实现高性价比。
去年,当张建锋发布含光800时,他声称,“在业界标准ResNet-50测试中,它达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。”
不过龙欣并没有提及含光800峰值性能,而是在昨天分享中强调其可用性。他表示:“作为并没有公开市场发售过的芯片,我们通过Arircloud输出。”以便让购买实例用户能够自动安装NPU驱动SDK,以及系统方面提供公共镜像CentOS 7.6/7.7 Ubuntu 16.04预装主流深度学习框架提供TensorFlow MXNet示范教程。
至于具体三个场景中的性能提升情况:
在行人检测应用中,与主流GPU相比,可同时处理100路视频。
在车辆检测应用中,与主流GPU相比,可同时处理85路视频。
在内容识别(使用ResNet50 V2)与Inception V4模型中的直播增强任务与点播HDR任务,对应帧率分别为20000 FPS & 500 FPS,每次都超越了主流GPU性能,加速度分别为11倍 & 10倍。