2022年手机处理器性能排行榜阿里含光800 AI处理器在人物识别场景下表现出色高调亮相后其AI处理
2022年,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在杭州云栖大会上介绍了公司的首款AI芯片含光800。这款当时最强AI推理芯片的发布引起了广泛关注。今年,阿里云线上举办了一场关于芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
龙欣表示,含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。该实例名称为ebman1.24xlarge,最多支持8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核以及拍立淘等。
更值得关注的是含光800在具体应用中的表现。在拍立淘这一典型应用中,由于其日活用户数量超过两千万,在使用图片搜索功能时,要匹配4亿多商品和30多亿张图片库,这就需要很强的AI能力。因此,通过自研硬件到软件方案提升性价比是阿里的目标。
包含以下三个方面特色的硬件优化:
深度优化CNN及视觉类算法
加速卷积和矩阵乘,以支持反卷积、孔洞卷积、三维卷积等
针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN、DeepLab等模型进行优化
除了这些硬件优势之外,还有软硬协同支持权重稀疏压缩计算量化压缩指令集支持可编程模型扩展,并且覆盖FP16/BFP16向量计算直接加速各种激活函数,如ReLu、Sigmoid和Tanh。
尽管去年张建锋宣布含光800性能高于业界标准ResNet-50测试中的78563 IPS,比目前业界最好的AI芯片性能高4倍,但龙欣昨天并没有提及含光800的峰值性能,而是强调其可用性。他表示:“作为并没有在公开市场发售的芯片,通过阿里云输出。”以便让购买实例的用户可以自动安装NPU驱动和SDK,同时系统方面提供公共镜像CentOS 7.6/7.7和Ubuntu 16.04,以及预装主流深度学习框架,如TensorFlow 和 MXNet示范教程。
至今,在行人检测应用中,4核含光800能支撑100路视频,比主流GPU25路推理性能提升4倍;车辆检测中,可支撑85路视频,比主流GPU10路推理性能提升8.5倍。在内容识别应用中的ResNet50 V2模型中,与主流GPU相比,其帧率提高11倍;Inception V4模型处理帧率也比主流GPU快10.8倍。而直播视频增强性能为500 FPS,对比主流GPU50 FPS,有10倍加速;点播HDR则达到66 FPS,对比A100训练GPU只需6秒完成,即实现6.6倍加速效应。
不过,在语音交互或自然语言理解领域具体应用优势尚未详细阐述。不过,从此次分享来看,可以认为即便有强大的团队快速设计出一款新型芯片,但要大规模落地仍然需要很长时间,这个过程软件发挥着更加直接作用。此外,大规模客户认可采用也是一个挑战。