国产芯片英雄阿里含光800以惊人的AI处理力场外传GPU之上飞跃三大应用领域展现超凡性能

阿里含光800 AI处理器:高调亮相后三大场景性能比GPU提升4-11倍,国产替代半导体芯片龙头股展现超凡力

在2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋的简短介绍激发了对自主研发AI芯片含光800的巨大期待。今年,在另一场线上云栖大会上,阿里云异构计算产品研发总监龙欣分享了近一年来这款AI推理芯片的最新进展和应用实践。

尽管尚未对外正式发售,但含光800 NPU实例已经开放于公众,不再需要白名单即可购买。它支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s,是面向数据中心CNN类型模型推理加速的先进解决方案,其业务范围涵盖城市大脑、图像视频审核以及拍立淘等多个领域。

更值得关注的是,随着时间推移,含光800在实际应用中的表现日益突出。在去年的文章中,我们曾提到科技巨头自研芯片是为了满足内部广阔的AI需求,以提升效率和性价比。现在,这种设计不仅限于电商应用,还扩展到了视觉应用、语音交互、自然语言理解及机器翻译等领域。

例如,在拍立淘这个功能中,每天有数千万用户使用它进行商品搜索,从而实现个性化推荐,这就要求极强的人工智能能力。因此,通过从硬件到软件全面优化解决方案来提升性价比成为了阿里的目标。

包含深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩与量化压缩指令集,以及针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化特点,使得含光800成为针对特定算法设计的一款灵活且高效的处理器。

去年发布时,它在业界标准ResNet-50测试中的推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍,并且能效比500 IPS/W,是第二名3.3倍之高。而今,一系列具体应用中的数据显示其优势更加明显:

在城市大脑中,将40颗传统GPU减至4颗NPU,而延时由300ms降至150ms。

拍立淘商品库每天新增10亿商品图片,用传统GPU识别需1小时,而用含光800只需5分钟。

行人检测中,可以支撑100路视频,与主流GPU相比较,有4倍性能提升;车辆检测则可以支撑85路视频,与主流GPU相较,有8.5倍性能增强。

在内容识别应用,如ResNet50 V2模型下,可达到20000 FPS,比主流GPU速度快11倍;Inception V4模型下,可达到5000 FPS,比主流GPU速度快10.8倍。

在直播质量增强方面,可实现10次FPS,加速比为10倍;点播HDR可实现66 FPS,加速比为6.6倍,即便超过英伟达A100仍有显著提高。

虽然此次分享并没有提供新的详尽数据,但已证明了其在实际场景下的卓越表现。此外,由于当前全球贸易关系紧张,对于涉及芯片的话题可能会采取谨慎态度。这并不意味着未来不会有更多创新或更新,只是当前情况下,其影响正在逐步体现出来。

对于未来是否会有一代更强大的AI芯片出现,以及何时能够问世,则仍然是一个悬念。但无疑,无论是在技术还是市场层面,都将继续关注这一关键节点,因为它不仅代表着一个公司甚至整个行业技术发展水平,也预示着数字经济时代新一轮竞争和机遇的到来。