阿里含光800 AI处理器如同骁龙8般强悍高调亮相后在三大场景中展现出超越GPU的惊人实力性能提升达
在2019年的云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800,这款当时最强大的AI推理芯片的问世,让整个科技界为之瞩目。如今,在2023年的线上云栖大会上,阿里云异构计算产品研发总监龙欣再次带来了一场关于含光800近一年发展现状与未来的盛会。
龙欣表示,自从含光800发布以来,它已经正式对外提供服务,无需白名单即可在阿里云实例中使用。其中包括ebman1.24xlarge型号,其支持8核NPU和96核vCPU、384G内存以及最高30Gbit/s网络带宽。这款芯片主要面向数据中心中的CNN类型模型推理加速,适用于城市大脑、图像视频审核等领域。
更令人振奋的是,尽管含光800尚未对外发售,但其性能通过阿里云输出已经显现出令人瞩目的结果。据雷锋网去年报道,当时科技巨头自研芯片是为了满足内部大量数据驱动的AI需求,以提升效率和性价比。而今年的分享中,龙欣也提到,阿里的内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互等。
一个典型案例就是拍立淘,其日活用户超过两千万,每天需要处理四亿多商品图片中的搜索匹配,以及根据用户习惯进行个性化推荐,这些都需要强大的AI能力。因此,与其他行业相比,可见包含隐私保护在内的创新解决方案对于各行各业来说至关重要。
除了硬件优化方面,如深度优化CNN及视觉类算法,加速卷积和矩阵乘,还有针对ResNet-50等模型优化,以及高能效低延时、高密度计算与存储、高软硬协同支持权重稀疏压缩等特点外,还指令集支持可编程模型扩展,并覆盖INT8/INT16量化加速度FP16/BFP16向量计算除直接加速各种激活函数之外,也可支持未来新型激活函数。
值得注意的是,由于其峰值性能并未被公布,而是着眼于它作为非公开市场设备提供给用户自动安装NPU驱动和SDK系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主流深度学习框架TensorFlow/MXNet示范教程。此外,对于具体应用而言,它相比GPU在三大场景中的表现达到了4-11倍性能提升,比如城市大脑实时处理交通视频,从40颗传统GPU降低到仅需4颗;拍立淘商品库每天新增10亿商品图片识别时间由1小时缩短至5分钟;行人检测100路视频由主流GPU25路提升4倍;车辆检测85路视频由主流GPU10路提升8.5倍;直播内容识别ResNet50 V2模型帧率达到20000 FPS,比主流推理GPU1800 FPS提升11倍;Inception V4模型5000 FPS,比主流推理GPU460FPS性能加速比高10.8倍。在HDR点播中,即使英伟达A100训练所需但仍能实现6.6倍性能加速比。
然而,此次分享并没有详细介绍语音交互或自然语言理解等语言方面的实际优势。不过,可以看出,无论是在哪个领域,都蕴藏着前所未有的潜力与机遇。而随着技术不断进步,我们不难预见将来这些先进工具将如何改变我们的生活方式,为我们带来更加便捷且智能的人机交互体验。