华为昇腾,AI推理性能超越对手一倍:软件挖掘处理器全部潜力

简介: 华为的 Atlas,一次就让业界最佳水平翻了一倍。

「硬件是 AI 的基础,但软件是核心。目前华为昇腾有 70% 研发人员专注于软件的开发,希望能把昇腾处理器的潜力全部发挥出来。」华为昇腾计算业务总裁许映童说道。

在本周举行的 HAI 2020 新品发布会上,华为发布了迄今为止业界最完整的 AI 全栈软件平台,覆盖从基础软件到应用能力的所有方面,在推出业内最强 AI 处理器「昇腾系列之后,软件成为了华为昇腾技术发展的新方向。

微信图片_20211204104626.jpg

华为昇腾计算业务总裁许映童在发布会上。

这是华为首次披露昇腾 AI 全栈软件平台的所有能力。

价格更低,性能翻倍

后摩尔定律时代,人们要想获得算力提升,很大程度上需要仰赖计算堆栈的「顶层」,即软件、算法和硬件架构,这将成为一个新的历史趋势。前不久,刊登在 Science 上的一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》引起了人们的广泛讨论:研究人员指出,在软件层面上,我们还能找到大幅度提升 AI 计算性能的方法。

在 HAI 2020 大会上,华为展示了 Atlas300I 单卡支持 80 路 1080P 智能视频分析的能力,这个数字是目前竞争对手 Tesla T4 的两倍。在这背后,既有硬件架构的设计,也有强大软件的功劳。

微信图片_20211204104630.pngimage.gif


截止 2018 年,国内的摄像头的数量就已经超过了 2 亿个,摄像头的数量越来越多,视频数量暴增,然而大部分视频内容是无效的,想要剔除大部分无效视频数据,需要人工智能技术对视频进行智能分析。对于技术供应者和用户来说,智能视频分析技术需要大规模应用需要解决算法精度的问题,并不断降低应用成本。

随着近年来深度学习等技术的发展,AI 算法识别的精度已不成问题,但越来越多的数据、不断倍增的模型算力需求和缓慢的芯片制程提升之间存在不小的矛盾。

华为的 Atlas 300I 单卡视频分析能力,可以为公安、交警等部门,以及不少企业用户在应用场景中带来巨大的便利。

一张推理卡接管 80 路高清视频,这是怎么做到的?从视频解码到系统优化,华为在任务处理的每个环节上都做了极致的优化。

首先,在进行人脸识别、视频结构化、动作识别等智能视频分析之前,我们需要将视频流解码为图片流,随后才能输出给深度学习算法。每块昇腾 310 芯片中都搭载了 DVPP 硬件单元,至少可支持 16 路 1080P@30fps 的视频解码需求,对于 25FPS 的视频流,则可以支持超过 20 路——在每张 Atlas 300I 卡上,有 4 块这样的芯片。

微信图片_20211204104634.jpg

Ascend(昇腾)310 芯片的逻辑结构图。

在视频解码之后,我们还希望在计算卡上进行数据的临时存储。在这里,智能视频分析路数越多,需要缓存的目标图像数量就越大,存储空间占用量也就越大。在 Atlas 310I 计算卡上,华为塞进了共计 32GB 的 DDR 存储空间。

另一方面,由于异构计算架构 CANN 3.0 对视频解码流程和底层驱动进行了优化,每路 1080P 视频的解码存储空间占用量可以小于 90MB。

在硬件部署之后,设备的算力峰值是固定的,进一步提升算法性能的任务就落在了软件优化上。华为的工程师希望从算子性能和神经网络结构两方面提升算力效率。昇腾系列处理的离线模型转换工具 ATC 集成了大量深度优化后的算子和算子融合规则,在离线算子转化过程中会对计算图进行优化和融合,从而提升硬件资源占用率,提升网络性能。

从之前的各种实验结果看,昇腾处理适合于 YOLO V3、Inception V3、ResNet 系列神经网络的加速,因此在智能视频分析任务(如动态人脸识别)中,我们可以选择类 YOLO V3 架构(如 YOLO V3-Tiny)的算法模型作为目标检测算法,Inception V3、ResNet 系列算法作为分类、特征提取算法或其他网络模型的主网络,可以极大的提升处理性能,充分发挥算力优势。

在以上四个优化步骤之后,华为还有多线程时间并行、合理多 Batch 推理、异构资源优化等方式进一步对整个流程的各部分进行优化,充分利用异构计算资源,提升了系统的线性程度,提高了吞吐量。

使用昇腾芯片进行智能视频分析,大幅度降低了视频分析的单路硬件成本,为 AI 智能视频分析技术的大规模推广奠定了基础。

极简易用的昇腾 AI 全栈软件平台

Atlas300I 业内最佳性能的成绩,是华为昇腾软件强大的体现。

不仅效率极高,而且简单易用,华为在 HAI 大会上新发布的产品包括异构计算架构 CANN 3.0、全场景 AI 计算框架 MindSpore、全流程开发工具链 MindStudio 2.0、昇腾应用使能 MindX 等。提供的能力覆盖从算子、模型开发到应用开发等所有方面:简而言之,就是可以用一套工具搞定所有任务。

「把简单留给别人,把复杂留给自己。华为昇腾 AI 全栈软件平台可以最大程度发挥硬件性能,降低 AI 应用开发的门槛。」许映童在发布会上表示。

image.gif微信图片_20211204104638.jpg


此前,想把最先进的 AI 技术应用到实践中去,我们面临着不少挑战。「对于行业用户来说,选择哪些 AI 模型是一个难以抉择的问题。我们看到很多客户还在使用三四年前提出的,较为落后的模型,他们的技术升级速度较慢,技术难倒英雄汉。」许映童说道。

AI 算法到产品化应用有很远,从模型获取,数据准备到最终的适配开发,初创企业没有时间和精力完整走完所有历程。即使对于一些大公司来说,人工智能的人员专业性需求高,同样影响了 AI 技术在产业落地。

这些问题,华为认为都不应该由开发者来解决,新发布的 MindX 和 CANN 3.0,就是为了让 AI 直接可用而生的。

「汽车司机关心的是如何把人和货物准确送到目的地,而不会去研究汽油如何炼化,或发动机如何工作,」华为昇腾计算业务 CTO 周斌博士说道。「我相信大量行业应用的 AI 开发者更需要 AI 能力的支持,而不是研究原理。这就是我们推出 MindX 的初衷:把复杂的工作交给 MindX,你只需关注如何开发应用,如何把 AI 能力集成进去。」

MindX 1.0 带来了「2+1+X」模式,其中的 2 是指两个平台 MindX DL(Atlas 深度学习平台)和 MindX Edge(Atlas 智能边缘平台),分别面向云端和边缘侧;1 指优选模型库 Model Zoo,而 X 则是使能各行业的 SDK 工具,先期开放的包括视觉SDK mxVision 和制造 SDK mxManufacture。

微信图片_20211204104643.jpg


另一个重要是软件系统是 CANN 3.0 异构计算架构。自 2018 年随华为第一代 AI 芯片发布起,CANN 已经走过两个大版本的更新,8 月 10 日发布的 CANN 3.0 核心理念在于统一端边云和架构,自动部署,支持多种计算架构,同时支持后向兼容和演进。CANN 3.0 不是简单地软件或平台,它是一个完整的开发体系,其中包含编程语言 TBE,编译及调试工具,还有编程模型。

正是得益于 CANN 3.0 的架构优化,华为实现了一块 Atlas 300I 推理卡实时处理 80 路视频的能力,此前业内最佳的水平是 40 路。华为表示,在实验室里,这个数字还可以更高。

微信图片_20211204104646.jpg


有关人们是如何把 AI 技术应用到各个行业的,华为对开发者做了一个简单的画像:最顶尖的开发者希望进行 AI 算子和神经网络开发,人数只占到 1%——他们需要用到 CANN 3.0 和 Mind Studio 的解决方案。

第二类是占比 10% 的 AI 应用开发者,他们需要 AI 的能力来辅助各类研究。这既需要 AI 基础知识,也需要相关专业领域的知识,他们需要的是开源 AI 框架 MindSpore——在大多数时间内,开发者们无需了解 AI 算法的具体实现。

「第三类开发者,则是把 AI 技术当作一种服务的 90% 客户,他们无需理解应用背后的是 YOLO v3,ResNet50 还是其他什么算法。使用华为全新的 MindX 1.0,可以全面加速这类工作的开发速度。」许映童表示。

发力软件的华为

在以往华为的发布会上,最吸引眼球的往往是硬件和芯片。这次的 HAI 大会则不太一样,华为花费大量篇幅探讨软件的重要性。正如研究人员所说,除了发展新形态的 AI 硬件之外,软硬结合才能发挥 AI 的澎湃算力。而在这一方面,华为也证明了自己能做到最好。

华为的全场景 AI 技术已在很多客户的业务中部署,当然首先就是华为自己。在松山湖园区,基于 Atlas 的智能制造方案已经在计算产品的生产线上实现了大规模应用——AI 技术贯穿了华为制造的每个环节,就连 Atlas 板卡也是使用 Atlas 技术制造的。人工智能在完成标签缺陷检测、螺钉缺失等任务上已可以实现「秒级检测」,将质检准确率由之前的传统机器视觉质检的 90% 提升至 99.9%,质检人员的工作效率提升了 3 倍。

华为已在自家工厂里实现 AI 的工位级、线体级、车间级应用,覆盖了超过 80 个产线,面向云计算、5G 通信、终端等产品。而实现如此大规模的 AI 应用,除了打造软件工具之外,华为只投入了三名开发人员。

「在过去一年里,华为昇腾的生态布局初见成效。目前在国内已有 60 所高校开设了昇腾课程,预计到今年年底,这个数字会增长到 100 个以上,昇腾的开发者数量已达到 4 万多人。这些发展只是小小的第一步,当前的 AI 技术正处在爆发性增长的前夜。」许映童说道。

微信图片_20211204104651.jpg

在 HAI 2020 大会上,华为也为即将推出的昇腾处理器做出了一点预告:搭载新一代芯片的华为 AI 训练卡,其性能超过了英伟达 A100。

做好软硬协同硬核能力,保持开源开放,吸引更多合作伙伴,华为正希望通过领先技术让昇腾领跑产业 AI 的未来。

相关文章
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
好用的AI绘画软件,一次安利给你
好用的AI绘画软件,一次安利给你
62 0
|
3天前
|
人工智能 算法 测试技术
探索软件自动化测试的未来:AI驱动的测试策略构建高效可靠的微服务架构:后端开发的新范式
【5月更文挑战第28天】 在软件开发的世界中,测试是确保产品质量的关键步骤。随着技术的进步和项目复杂性的增加,传统的手动测试方法逐渐显得力不从心。本文旨在探讨自动化测试的最新趋势——人工智能(AI)驱动的测试策略。我们将分析AI如何通过智能化的测试用例生成、测试执行优化以及结果分析来提高测试效率和精确性。文章还将讨论实施AI测试策略的挑战与机遇,为软件测试工程师提供未来技术转型的视角。 【5月更文挑战第28天】 在当今软件开发的快速迭代和复杂多变的环境中,传统的单体应用架构已经难以满足业务敏捷性和可扩展性的需求。微服务架构作为一种新的解决方案,以其服务的细粒度、独立部署和弹性伸缩等特性,正逐
|
6天前
|
存储 弹性计算 人工智能
【阿里云弹性计算】AI 训练与推理在阿里云 ECS 上的高效部署与优化
【5月更文挑战第25天】阿里云ECS为AI训练和推理提供弹性、可扩展的计算资源,确保高性能和稳定性。通过灵活配置实例类型、利用存储服务管理数据,以及优化模型和代码,用户能实现高效部署和优化。自动伸缩、任务调度和成本控制等策略进一步提升效率。随着AI技术发展,阿里云ECS将持续助力科研和企业创新,驱动人工智能新时代。
23 0
|
10天前
|
存储 人工智能 Linux
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
63 1
|
16天前
|
人工智能 自然语言处理 搜索推荐
阿里通义千问的这次升级不仅带来了实实在在的利好,也为我们展示了AI技术的巨大潜力和广阔前景
【5月更文挑战第13天】阿里通义千问3月22日升级,开放1000万字长文档处理功能,成为全球处理容量最大的AI应用,超越ChatGPT等。此升级助力用户(如金融分析师、法律人士、科研人员)高效处理文档,提升工作效率,并推动AI在各行业深入应用,加速数字化转型。未来,通义千问可能发展更强大的自然语言处理能力、拓宽应用场景及提供智能个性化推荐,展现AI技术潜力与前景。
49 2
|
16天前
|
人工智能 安全 Linux
《龙蜥理事说》第二期对话统信软件 AI 让操作系统更智能
统信软件携手龙蜥生态提供更好操作系统服务。
|
16天前
|
人工智能 边缘计算 Kubernetes
阿里云边缘容器云帮助AI推理应用快速落地
2024全球分布式云大会·北京站,阿里云徐若晨演讲内容分享
53 0
|
16天前
|
人工智能 安全 Anolis
|
16天前
|
人工智能 安全 Linux
在云智融合浪潮下,服务器操作系统产业的未来发展将更加注重性能、安全性、稳定性以及对于AI和云计算的支持
在云智融合浪潮下,服务器操作系统产业的未来发展将更加注重性能、安全性、稳定性以及对于AI和云计算的支持
21 4
http://www.vxiaotou.com