阿里含光800 AI处理器高调亮相三大场景应用中芯片封装工艺流程优化落地性能在人物识别等领域达到了G
在2021年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800。这款当时最强的AI推理芯片的发布引发了巨大的关注,确实是一次高调的亮相。
今年,阿里云线上举办了一场关于芯片设计发展现状与未来的论坛。阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU、384G内存、网络带宽最高达到30Gbit/s。”这主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核、拍立淘等。
更值得注意的是,在具体应用中的表现。
尽管含光800尚未对外发售,但其性能通过Arilun输出。
正如去年雷锋网文章中所述,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比为目的。周五线上分享中,龙欣也提到,Arilun有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解机器翻译等。
一个典型案例就是拍立淘,它拥有两千多万日活用户。在使用该功能时,他们要通过一张图片,在4亿多商品中搜索,以及在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这需要极强的AI能力。
因此,Arilun希望通过自研硬件到软件方案来提升性价比。简单回顾一下,由于深度优化CNN及视觉类算法,加速卷积和矩阵乘以支持反卷积、三D卷积以及插值等;高能效低延时、高密度计算与存储减少I/O需求;软硬协同支持权重稀疏压缩计算量化压缩指令集可编程模型扩展除INT8/INT16量化加速外,还覆盖FP16/BFP16向量计算直接加速各种激活函数,也可支持新型激活函数。即使针对CNN算法模型进行设计,但保持一定灵活性,再结合全栈软件支持特定应用和算法实现高性价比。
去年张建锋发布含光800时说,“在业界标准ResNet-50测试中,该芯片性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过龙欣昨天分享并没有提及含光800峰值性能,而是强调其可用性,他表示:“作为未公开市场销售的芯片,我们将其输出至Alucloud。”
为了让包含NPU驱动和SDK自动安装系统方面提供公共镜像CentOS 7.6/7.7Ubuntu 16.04预装主流深度学习框架提供TensorFlow/MXNet示范教程。此次分享给出的数据显示,在行人检测应用中4核包含NPU克服100路视频,比主流GPU25路性能提升4倍。在车辆检测中同样使用4核包含NPU,可以支撑85路视频,比主流GPU10路性能提升8.5倍。在ResNet50 V2模型中的帧率可以达到20000 FPS,比主流推理GPU1800 FPS增加11倍。在Inception V4模型处理帧率达到5000 FPS,比主流推理GPU460FPS增加10.8倍。而且直播点播HDR增强各项任务表现均超过或接近原先设备速度,大幅提高工作效率,同时降低成本。
至于语音交互自然语言理解等领域,此次没有详细展示实际案例优势。不过从此次会议看出,即便有强大的团队能够快速设计出一款新的晶体管,但是要大规模落地仍然需要很长时间,这个过程软件扮演着更加直接作用,而获得客户认可采用也不容易。