阿里含光800 AI处理器高调亮相芯片内部结构图如同战略布局其在后三大场景中的落地性能比GPU更是如

阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在2019年杭州云栖大会上隆重发布了自家的AI芯片含光800,引发科技界巨大关注。近日,在今年的线上云栖大会上,阿里云异构计算产品研发总监龙欣详细介绍了这款AI推理芯片的一年来最新进展。

龙欣表示,含光800 NPU实例已经正式对外服务,无需白名单即可在阿里云实例上购买。该实例支持8核NPU和96核vCPU、384G内存以及最高30Gbit/s网络带宽,主要面向数据中心的CNN类型模型推理加速,应用场景包括城市大脑、图像视频审核和拍立淘等。

更值得注意的是,其在实际应用中的表现。在拍立淘这样的场景中,由于用户数量庞大,每天需要处理大量图片以进行搜索匹配,这就要求极高的AI能力。通过自研含光800,从硬件到软件方案提升性价比,是阿里的重要目标之一。

含光800在硬件设计方面具有深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩等特色。此外,它也保持一定灵活性,以适应全栈软件支持下的特定应用和算法实现高性价比。

据龙欣介绍,在业界标准ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。不过,他并未提及含光800峰值性能,而是强调其可用性,并且强调它作为并没有在公开市场发售的芯片,只通过阿里云输出。

为了让包含NPU驱动和SDK的实例开箱即用,便于用户自动安装系统方面还提供公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow、MXNet示范教程。

至于具体应用中的表现,一些典型案例显示了其显著优势。在城市大脑中使用40颗传统GPU处理交通视频所需300ms,可使用4颗含光800仅150ms;拍立淘商品库每天新增10亿商品图片识别时间由1小时缩短至5分钟等。而且,在行人检测、车辆检测以及内容识别等多个领域,都有着明显超过主流GPU性能提升的情况,有时甚至达到了11倍之多。

尽管如此,对于未来可能会进一步开发或更新相关信息,我们仍然期待更多具体数据或者新一代产品的发布。此次分享虽然给出了一些新的数据,但相对于去年的关注程度略有减少,也许这是因为当前国际形势下,对敏感话题如贸易关系影响到的公司而言,更为谨慎地展示自己的技术成果。