备案控制台

开发者社区华章出版社文章正文

《OpenACC并行程序设计：性能优化实践指南》一 3.8　优化GPU内核

2017-09-11 1027

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章出版社《OpenACC并行程序设计：性能优化实践指南》一书中的第3章，第3.8节，作者：[美] 罗布·法伯（Rob Farber），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2000元阿里云代金券免费领取，2核4G云服务器仅664元/3年，新老用户都有优惠，立即抢购>>>

阿里云采购季（云主机223元/3年）活动入口：请点击进入>>>，

阿里云学生服务器（9.5元/月）购买入口：请点击进入>>>，

3.8　优化GPU内核

现在GPU大部分时刻都是忙碌的，那么是否可以减少GPU计算时间？如图3-9所示，使用函数摘要只显示CUDA函数信息。可以看出，主要耗时的内核是“moveParticles”，第二耗时内核是“cptCurrent”。两个内核的共同部分是都需要遍历粒子列表，先积累对粒子的总电流影响（cptCurrent），然后更新粒子的位置（moveParticles）。可见，原来使用的链表数据结构，即一个C结构存放粒子信息（存放的位置、速度和电荷），这种数据结构适合CPU实现，但并不适合邻近线程需要合并内存访问的GPU。把粒子数据结构变成256个浮点数组的结构链表后，如图3-10所示，性能改善很显著。这也归功于把MPI通信从同步改成异步。

screenshot

文章标签：

GPU云服务器

异构计算

关键词：

GPU云服务器性能优化

GPU云服务器优化

openacc并行程序设计：性能优化实践指南GPU云服务器

相关实践学习

基于阿里云DeepGPU实例，用AI画唯美国风少女

本实验基于阿里云DeepGPU实例，使用aiacctorch加速stable-diffusion-webui，用AI画唯美国风少女，可提升性能至高至原性能的2.6倍。

华章计算机

目录

相关文章

弹性计算-小弹

|

5天前

|

人工智能缓存调度

技术改变AI发展：RDMA能优化吗？GDR性能提升方案（GPU底层技术系列二）

随着人工智能（AI）的迅速发展，越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术，可以让使用pcie标准的gpu和第三方设备进行直接的数据交换，而不涉及CPU。

弹性计算-小弹

134710 6 8

智能引擎技术

|

5天前

|

并行计算 TensorFlow 调度

推荐场景GPU优化的探索与实践：CUDA Graph与多流并行的比较与分析

RTP 系统(即 Rank Service)，是一个面向搜索和推荐的 ranking 需求，支持多种模型的在线 inference 服务，是阿里智能引擎团队沉淀多年的技术产品。今年，团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream，改变了TensorFlow的单流机制，让多流的执行并行，作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案，以及团队的实践成果与心得。

智能引擎技术

699 1 1

Echo_Wish

|

5天前

|

机器学习/深度学习并行计算算法

掌握XGBoost：GPU 加速与性能优化

掌握XGBoost：GPU 加速与性能优化

Echo_Wish

264 0 0

算精通

|

5天前

|

存储人工智能 Kubernetes

阿里云ACK助力GPU成本优化，实现灵活管理

摘要：本文将介绍如何在阿里云容器服务ACK中，利用cGPU技术，共享GPU算力，提高GPU利用率，降低TCO。

算精通

63 2 2

弹性计算-小弹

|

5天前

|

人工智能弹性计算并行计算

技术改变AI发展：CUDA Graph优化的底层原理分析（GPU底层技术系列一）

随着人工智能（AI）的迅速发展，越来越多的应用需要巨大的GPU计算资源。CUDA是一种并行计算平台和编程模型，由Nvidia推出，可利用GPU的强大处理能力进行加速计算。

弹性计算-小弹

102567 1 1

1744812029540769

|

5天前

|

存储人工智能缓存

探索AIGC未来：CPU源码优化、多GPU编程与中国算力瓶颈与发展

近年来，AIGC的技术取得了长足的进步，其中最为重要的技术之一是基于源代码的CPU调优，可以有效地提高人工智能模型的训练速度和效率，从而加快了人工智能的应用进程。同时，多GPU编程技术也在不断发展，大大提高人工智能模型的计算能力，更好地满足实际应用的需求。本文将分析AIGC的最新进展，深入探讨以上话题，以及中国算力产业的瓶颈和趋势。

1744812029540769

190 1 1

弹性计算-百晓生

|

5天前

|

机器学习/深度学习人工智能弹性计算

阿里云林立翔：基于阿里云GPU的AIGC小规模训练优化方案

阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲，围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。

弹性计算-百晓生

66082 20 22

猫头虎

|

7月前

|

机器学习/深度学习 TensorFlow Go

美团视觉GPU推理服务部署架构优化实战

美团视觉GPU推理服务部署架构优化实战

猫头虎

138 0 0

长沙红胖子Qt

|

异构计算

案例分享：Qt流水线图像显示控件（列刷新、1ms一次、缩放、拽拖、拽拖预览、性能优化、支持OpenGL GPU加速）

案例分享：Qt流水线图像显示控件（列刷新、1ms一次、缩放、拽拖、拽拖预览、性能优化、支持OpenGL GPU加速）

长沙红胖子Qt

509 0 0

案例分享：Qt流水线图像显示控件（列刷新、1ms一次、缩放、拽拖、拽拖预览、性能优化、支持OpenGL GPU加速）

技术小达人

|

存储人工智能并行计算

以加速 compaction 和 scan 为例：谈 GPU 与 LSM-tree 的优化

以加速 compaction 和 scan 为例：谈 GPU 与 LSM-tree 的优化

技术小达人

360 0 0

以加速 compaction 和 scan 为例：谈 GPU 与 LSM-tree 的优化

华章出版社

热门文章

最新文章

Kubernetes（K8s）与虚拟GPU（vGPU）协同：实现GPU资源的高效管理与利用

GPU计算资源智能调度：过去、现在和未来

Serverless 应用引擎产品使用之在阿里云函数计算中使用包含GPU的实例并且镜像超过10GB了如何解决

Kubernetes 调用 GPU解析

CPU、GPU、TPU、NPU等到底是什么？

GPU实例使用--单实例上运行Linux桌面多开解决方案

阿里云异构计算发布：轻量级GPU云服务器实例VGN5i

阿里云郑晓：浅谈GPU虚拟化技术（第三章）

阿里云GPU加速：大模型训练与推理的全流程指南

支持GPU的破解软件

上帝视角看GPU（5）：图形流水线里的不可编程单元

GPU 硬件与 CUDA 程序开发工具

阿里云GPU服务器价格多少钱？2024年阿里云GPU服务器价格配置及性能测评

2024年阿里云服务器价格配置表汇总（轻量服务器、ECS服务器、游戏服务器、GPU服务器）

【AMP实操】解放你的GPU运行内存！在pytorch中使用自动混合精度训练

机器学习PAI报错问题之跑collective gpu分布式报错如何解决

【求助】使用免费GPU计算实例尝试模型库中的大模型，报错：无法利用GPU，找不到模型文件

ECS实例问题之增加GPU显卡失败如何解决

掌握XGBoost：GPU 加速与性能优化

【GPU】GPU 硬件与 CUDA 程序开发工具

相关课程

更多

机器阅读技术与应用

机器学习入门-概念原理及常用算法

分布式计算入门

机器学习原理与实践

服务器硬件基础

云数据库优化十大典型案例

相关电子书

更多

DeepStream: GPU加速海量视频数据智能处理

阿里巴巴高性能GPU架构与应用

GPU在超大规模深度学习中的发展和应用

相关实验场景

更多

通过GPU云服务器训练GPT-2

通过GPU云服务器生成AIGC 3D模型

云原生AI套件：一键训练大模型及部署GPU共享推理服务

在云上部署ChatGLM2-6B大模型（GPU版）

语言入门-1：环境构建

部署Stable Diffusion玩转AI绘画（GPU云服务器）

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考