中国最好的芯片阿里含光800 AI处理器亮相后如同雄鹰俯冲三大场景下性能高飞比GPU强4-11倍

在2019年的云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这款当时业界最强大的AI推理芯片的高调亮相,无疑是科技界的一个重要里程碑。

一年后,2020年线上云栖大会上,阿里云异构计算产品研发总监龙欣再次带来了关于含光800近一年来的最新进展。他宣布,含光800 NPU实例已经正式对外服务,不需要白名单即可在阿里云实例上购买。这个实例名为ebman1.24xlarge,它支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核以及拍立淘等。

更令人关注的是含光800在具体应用中的表现。在去年的文章中,我们提到过科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比。而周五线上的分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解和机器翻译等。

拍立淘就是一个典型案例,这个功能每天需要处理两千多万用户图片搜索,其中包含40亿多商品图片和30多亿张图片库进行匹配,并根据用户习惯进行个性化推荐,这就需要极强的AI能力。

为了通过硬件到软件方案提升性价比,含光800在硬件方面具备深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化。它拥有高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩计算量化压缩指令集支持可编程模型扩展。

虽然去年张建锋发布时曾提到其性能,比目前业界最好的AI芯片性能高4倍,但昨天分享中并未提及峰值性能,而是强调其可用性,即便如此,该芯片仍然能够提供显著的加速度优势。在三大AI应用中,其性能可以提升4-11倍,比如城市大脑中的实时视频处理,可以从40颗传统GPU降至仅需4颗;拍立淘商品库每天新增10亿商品图片,从传统GPU识别时间1小时缩短至5分钟。此外,在行人检测车辆检测内容识别等领域也显示出了显著优势。

尽管今年共享给出的消息并不全面,但这表明了未来可能会有一系列更加丰富详细的情报来展示这一前沿技术如何帮助企业解决实际问题,为数字经济时代贡献力量。