带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1)

简介:随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022920日发布的RTX 4090一起公布。

背景:Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022920日发布的RTX 4090一起公布。本节对RTX 4090以及Ada架构及其新特性先做一个全面的梳理。性能分析部分处理器参照物主要是Hopper架构的GH100Ampere架构的GA100/GA102GPU参照物主要是H100GH100)和A100(GA100)3090 Ti(GA102)

Ada架构

Hopper架构的GH100一样,Ada架构的AD102也采用了台积电的4nm N4工艺制程,这使得AD102得以集成高达763亿个晶体管,同时可以获得更高的频率,GPU Boost Clock高达52GHz,使得搭载AD102RTX 4090成为目前频率最高的NVIDIA GPU

AD102搭载了新的第四代Tensor Core,低精度数据类型上,跟GH100一样,新增支持业界首创的FP8数据类型,支持INT8,但Ada增加了Hopper上去掉的INT4;高精度数据类型上,支持BF16数据类型,支持TF32数据类型,但Ada去掉了FP64TensorCore支持。同样,Ada架构每个SM张量核在等效数据类型上提供Ampere架构 SM2MMA(矩阵乘法累加)计算速率。针对深度学习领域,同样提供稀疏神经网络的硬件加速支持,标准张量核心操作性能翻倍。

得益于每个SM CUDA core性能提升2倍(相比Ampere数量翻倍)以及更多的SM数量,IEEE FP32的性能相比GA102也提升了近3倍。

Ada架构芯片搭载了新的第三代RT CoreTuring架构首次引入RT Core,可实现硬件加速的实时光线追踪渲染。),

每个SM的组合共享内存和L1数据缓存为128KB,整个AD102L1数据缓存可达18432KB

显存带宽为1TB/sGDDR6X

支持PCIe GEN4(双向带宽64GB/s)。

SM架构

Ada SM架构最重要的是搭载了第四代Tensor Core和新的第三代RT Core

 

架构总览

Ada完整的AD102芯片架构如下图所示:

image.png

?配置如下:

12 GPCs, 72 TPCs(6 TPCs/GPC), 2 SMs/TPC, 12 SMs/GPC, 144 SMs per full GPU

?        128 FP32 CUDA Cores/SM, 18432 FP32 CUDA Cores per full GPU

?        4 forth-generation Tensor Cores/SM, 576 forth-generation Tensor Cores per full GPU

?        GDDR6X, 384-bit memory interface with 12 32-bit memory controllers

?        288 FP64 Cores(2 per SM)1/64th TFLOP rate of FP32

RTX 4090有一些裁剪,配置如下:

?        11 GPCs, 64 TPCs, 2 SMs/TPC, 128 SMs

?         128 FP32 CUDA Cores/SM, 16384 FP32 CUDA Cores per GPU

?          4 forth-generation Tensor Cores/SM, 512 forth-generation Tensor Cores per full GPU

?        5 HBM2 stacks, 10 512-bit memory controllers

?        GDDR6X, 384-bit memory interface with 12 32-bit memory controller

GPC结构如果下图所示:

image.png

Ada架构每个GPC包含1Raster Engine(光栅化引擎),6TPC12SM16ROP(8 per ROP partition)

image.png

Ada架构每个 TPC 包含2 SM,每个 SM 包含 128 FP32 CUDA核心和64 INT32 CUDA核心(FP32Ampere2倍,INT32不变)、2FP64 CUDA核心(满足少量需要高精度的运算类型)、4个第四代Tensor核心、1个第三代RT核心。相比定位于数据中心计算的Hopper ,侧重于图形计算的Ada架构FP64核心数量大幅减少(上图因为数量太少并未画出),增加了一个RT核心。

如图所示,Ada SM 划分为4个处理块,每个处理块均包含32 FP32 CUDA核心、 16 INT32 CUDA核心、1 Tensor 核心、 1 个线程束调度器和 1 个分配单元。每个处理块还具有一个L0 指令缓存和一个 16 KB 寄存器堆。这四个处理块共享一个L1指令缓存,以及一个组合式的128 KB L1 数据缓存或共享内存,是Hopper GA100的一半。整个AD102L1缓存为18432KB,相比Ampere GA10210752KB提升了70%


带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2):

/article/1423693

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
2天前
|
传感器 数据采集 安全
物联网的五层架构分析
物联网五层架构,包括感知层、网络层、数据层、应用层和业务层,扮演着关键的角色。
11 2
|
3天前
|
Android开发
Android Jetpack架构开发组件化应用实战,字节跳动+阿里+华为+腾讯等大厂Android面试题
Android Jetpack架构开发组件化应用实战,字节跳动+阿里+华为+腾讯等大厂Android面试题
|
3天前
|
测试技术
深入理解与应用软件测试中的边界值分析法
【5月更文挑战第16天】 在追求软件产品质量的道路上,边界值分析法(Boundary Value Analysis, BVA)作为一种高效的测试设计技术,因其独特的关注点和较高的缺陷检出率而备受青睐。本文将探讨BVA的核心概念、操作流程及其在多变的测试场景中的应用优势。通过深入剖析边界值分析法的原理和执行步骤,揭示其在发现潜藏于输入、输出范围边界的软件缺陷方面的有效性,并讨论如何结合其他测试方法以优化测试覆盖率。文章还将展示通过案例分析和统计数据支撑的BVA应用效果,以及在实践中应注意的问题和可能的改进方向。
6 0
|
5天前
|
测试技术
深入理解与应用软件测试中的边界值分析法
【5月更文挑战第14天】 在软件开发的生命周期中,确保代码质量和功能正确性是至关重要的。本文将深入探讨一种高效的软件测试技术——边界值分析法(Boundary Value Analysis, BVA)。不同于通常的摘要形式,此部分将直接引导读者了解BVA的核心原理、应用方法及其在实际工作中的重要性。通过分析边界条件引发的缺陷案例,我们揭示了如何利用BVA提高测试覆盖率,优化测试用例设计,从而提升软件测试的有效性和效率。
|
5天前
|
机器人 Unix C++
ROS机器人编程技术架构命令应用
ROS机器人编程技术架构命令应用
6 1
|
5天前
|
Cloud Native 安全 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【5月更文挑战第12天】 随着数字化转型的浪潮不断冲击传统IT架构,企业亟需灵活、高效且可扩展的技术解决方案以保持竞争力。云原生技术作为一种新兴的系统构建方式,以其独特的弹性、微服务和持续交付等特性,成为推动企业快速响应市场变化的关键因素。本文将深入探讨云原生架构的核心组件,分析其如何促进企业的敏捷性,以及在实施过程中可能遇到的挑战和解决策略,为企业采纳云原生技术提供参考。
|
5天前
|
Cloud Native Devops 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【5月更文挑战第11天】 随着数字化转型的深入,企业对技术的敏捷性、可扩展性和成本效益提出了更高的要求。云原生架构作为一种新兴的设计理念和实践方法,正逐渐成为推动企业技术革新的关键力量。本文将深入探讨云原生架构的核心组件,包括容器化、微服务、持续集成/持续交付(CI/CD)以及DevOps文化,并分析它们如何共同作用于企业的IT基础设施,实现灵活、高效的运营模式。同时,我们也将识别在采纳云原生技术时面临的主要挑战,并提出相应的解决策略,以帮助企业顺利过渡到云原生时代。
|
5天前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
19 5
|
5天前
|
弹性计算 负载均衡 容灾
应用阿里云弹性计算:打造高可用性云服务器ECS架构
阿里云弹性计算助力构建高可用云服务器ECS架构,通过实例分布、负载均衡、弹性IP、数据备份及多可用区部署,确保业务连续稳定。自动容错和迁移功能进一步增强容灾能力,提供全方位高可用保障。
74 0
|
5天前
|
机器学习/深度学习 人工智能 数据管理
深入分析自动化测试中的挑战与机遇
【5月更文挑战第9天】随着软件行业的迅速发展,自动化测试已经成为确保软件质量、提高开发效率的关键手段。然而,在实施自动化测试过程中,企业和测试人员面临着众多挑战,包括测试脚本的维护问题、测试数据管理、与持续集成/持续部署(CI/CD)流程的融合等。本文将探讨这些挑战,并分析在这些挑战背后所隐藏的机遇,比如测试自动化工具的创新使用、人工智能(AI)在测试中的应用以及测试策略的优化。通过案例分析和最新行业趋势的讨论,我们旨在为读者提供对自动化测试未来发展的深刻见解。
http://www.vxiaotou.com