体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 通过ARMS管理Kubernetes集群GPU性能指标 在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,


在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。


另外相比自建的Prometheus方案, ARMS的全面托管的 Prometheus 服务可以提供以下特性,更好的为您的业务应用保驾护航

  • 高可用、可扩展的 Prometheus Server
  • 与阿里云容器服务深度集成
  • 监控数据无限存储能力

前提

使用步骤

  1. 登录ARMS控制台, 选择Kubernetes所在的集群
  2. 在ARMS控制台中prometheus界面中,点击集群列表中需要监控集群的安装按钮。此过程需要2分钟左右,请点击确认。


prometheus_1

3. 在该集群的已安装插件中可以看到 GPU NodeGPU APP,分别从节点维度和应用维度监控GPU资源


prometheus_2

4. 我们可以运行一个TensorFlow的测试程序验证

apiVersion: apps/v1beta1
kind: StatefulSet

metadata:
  name: test
  labels:
    app: test

spec:
  replicas: 1
  serviceName: "test"
  podManagementPolicy: "Parallel"
  selector: # define how the deployment finds the pods it manages
    matchLabels:
      app: test

  template: # define the pods specifications
    metadata:
      labels:
        app: test

    spec:
      hostNetwork: true
      hostPID: true
      containers:
      - name: test
        image: registry.cn-shanghai.aliyuncs.com/tensorflow-samples/tensorflow-gpu-mem:10.0-runtime-centos7
        command:
          - python3
          - /app/main.py
        resources:
          limits:
            nvidia.com/gpu: 1


部署成功后,查看应用的状态,可以知道应用的名称是test-0

# kubectl get po
NAME     READY   STATUS    RESTARTS   AGE
test-0   1/1     Running   0          63m

5. 进入GPU Node从节点维度监控


5.1 可以看到总的监控指标分为三个部分,最上面的部分是GPU的平均温度,总能耗和每个节点的显存使用。可以看到当GPU应用部署之后,节点的GPU


prometheus_3




5.2 而第二部分是GPU的分配状况,代表集群中的GPU中有多少分配给了工作负载;而右侧是每个节点的GPU数量。从本例子中看到部署Pod前GPU分配数目为0,而右侧的值一直是固定的值。


prometheus_4



5.3 第三部分则是以GPU卡的维度展示温度,能耗和使用率


prometheus_5

6. 如果想从应用的角度监控,则可以进入GPU App页面


6.1 第一行的数据是应用test-0使用的显存百分比和显存量


prometheus_6



6.2 第二行和第三行的数据是应用test-0的能耗,使用率和温度


prometheus_7

总结

通过使用托管Prometheus可以以Kubernetes原生的方式对于GPU资源进行监控, 可以帮助你更好的了解GPU基础架构的性能,以及它和业务性能的关系。我们后续还会支持针对GPU共享的监控。

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
6天前
|
存储 Prometheus 运维
【阿里云云原生专栏】云原生下的可观测性:阿里云 ARMS 与 Prometheus 集成实践
【5月更文挑战第25天】阿里云ARMS与Prometheus集成,为云原生环境的可观测性提供强大解决方案。通过集成,二者能提供全面精准的应用监控,统一管理及高效告警,助力运维人员及时应对异常。集成示例代码展示配置方式,但需注意数据准确性、监控规划等问题。这种集成将在云原生时代发挥关键作用,不断进化以优化用户体验,推动业务稳定发展。
124 0
|
11天前
|
安全 小程序 网络安全
阿里云腾讯云免费SSL证书托管系统的开发初衷
由于Google等公司推动,互联网安全趋势将SSL证书期限统一缩短至3个月,阿里云和腾讯云相继跟进。对于管理多个站点的小公司而言,手动维护变得繁琐。为自动化此过程,作者探索使用API解决方案。通过研究腾讯云API,成功实现证书的自动创建、审核和下载。为应对无免费到期提醒服务,作者创建计划任务,在证书到期前7天发送提醒,初期采用短信提醒,并增设公众号模板消息作为备选方案,完成到期提醒系统的构建。接下来的文章将讨论SSL证书的申请和下载流程。
41 2
|
11天前
|
存储 弹性计算 Kubernetes
【阿里云云原生专栏】深入解析阿里云Kubernetes服务ACK:企业级容器编排实战
【5月更文挑战第20天】阿里云ACK是高性能的Kubernetes服务,基于开源Kubernetes并融合VPC、SLB等云资源。它提供强大的集群管理、无缝兼容Kubernetes API、弹性伸缩、安全隔离及监控日志功能。用户可通过控制台或kubectl轻松创建和部署应用,如Nginx。此外,ACK支持自动扩缩容、服务发现、负载均衡和持久化存储。多重安全保障和集成监控使其成为企业云原生环境的理想选择。
171 3
|
16天前
|
存储 安全 数据中心
【Docker 专栏】Docker 容器与宿主机的资源隔离机制
【5月更文挑战第8天】Docker容器利用Namespace和Cgroups实现资源隔离,保证CPU、内存、网络和存储的独立,提升资源利用率和系统安全性。资源隔离有助于简化应用部署与管理,但也带来资源竞争、监控管理及安全挑战。理解并善用资源隔离机制能实现更高效、安全的容器运行。随着技术进步,Docker容器资源隔离将持续优化。
【Docker 专栏】Docker 容器与宿主机的资源隔离机制
|
16天前
|
运维 Linux Docker
Docker详解(十一)——Docker容器CPU资源限额实战Docker详解
Docker详解(十一)——Docker容器CPU资源限额实战
35 5
|
16天前
|
存储 运维 Linux
Docker详解(十)——Docker容器CPU资源限额配置
Docker详解(十)——Docker容器CPU资源限额配置
31 3
|
16天前
|
Kubernetes 调度 容器
Kubernetes容器资源限制
Kubernetes容器资源限制
25 0
|
16天前
|
消息中间件 Kubernetes Kafka
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
37 0
|
16天前
|
Prometheus Kubernetes 监控
|
16天前
|
弹性计算 数据中心
选择阿里云香港服务器的注意事项?香港主机托管租用价格?
选择阿里云香港服务器的注意事项?香港主机托管租用价格?阿里云香港服务器中国香港数据中心网络线路类型BGP多线精品,中国电信CN2高速网络高质量、大规格BGP带宽,运营商精品公网直连中国内地,时延更低,优化海外回中国内地流量的公网线路,可以提高国际业务访问质量

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版
  • http://www.vxiaotou.com