倚天平台业务访存及网络延时性能调优实践

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云服务器ECS,u1 2核4GB 1个月
简介: 本文主要内容是业务在倚天平台上的性能调优实践,重点基于芯片的 NUMA 特性和一些其他硬件特性,进行访存和网络延时方面的性能调优方法介绍。

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

1、背景

业务在倚天新平台适配后,性能表现不如预期。本文介绍从芯片、OS 内核、网络 IO及软件各层的瓶颈分析和性能调优方法。

2、NUMA 及访存性能优化

优化措施 1:调整关键进程布局,减少跨 Node 访问内存。
倚天 710 芯片内核由两个 DIE 组成,对应两个 NUMA node。为了避免跨 Node 访问内存导致的性能下降,开启了 NUMA(感知到两个 Node),并通过 cgroup 的方式限制进程使用的 CPU 和内存在同一个 Node, 以避免跨 Node 访问内存,如下图:
image.png

优化措施 2:开启内核 Duptext 特性,防止代码段(.text)跨 Node 访问。
在进行访存性能分析中我们发现关键进程代码段与进程使用的 CPU 和内存是处于两个不同的 Node,存在代码段跨 Node 访问的问题,导致端到端性能下降。
image.png

上图中,运行在 Node1 的进程 process,其代码段在安装部署的流程中已经缓存在 Node0 的 Page Cache 中,而进程实际上绑定在 Node1,因此进程在运行过程中 icache miss 后会到 Node1 的内存中加载代码段数据,极大的降低了运行的效率。

sudo cat /proc/${pid}/numa_maps

通过内核上述可以看到进程使用的内存相关信息,其中 0040000 地址的内存为代码段,N0=xxxxx 表示有 xxxxx 个 Pages 的内存页在 Node0 中(业务进程绑定在 Node1),影响性能。此外,由于内存页在两个 Node 的分配比例不稳定,会导致性能抖动。

有多种方式可以解决此问题,例如在拉起进程之前可以先 drop caches,将进程代码段从 Page cache 中清理出去,然后进程拉起的时候会根据我们的 cgroup 设置将代码段分配在本地内存中。但根据以往的经历,这种方式存在稳定性风险,可能导致系统 hang 住,因此无法落地。 Duptext 特性可以很好的避免出现上述代码段跨 Node 的情况。其原理是根据进程的 CPU/内存亲和设置,将其代码段拷贝到进程的 Local 内存节点,使得进程可以直接访问 Local 内存中的代码段副本。此外,此特性还可以避免进程访问共享库的代码段跨 die 问题。

优化措施 3:开启内核透明大页(包括代码大页)
倚天710 访问远端内存会导致性能下降,需要采取措施进行避免。开启内核透明大页可以有效地降低 TLB miss ,从而提高访存的性能。

3、使能硬件相关特性

使能芯片 SLC stash 特性(类似 Intel DDIO),降低网卡 PCIe 延时,提升网络性能。
业务端到端性能对网络性能非常敏感,网络的耗时在延时中占比较高,因此网络的性能对性能影响很大。通过验证发现使能芯片 SLC cache 有效降低 PCIe 延时,从而降低网络延时。其原理是使能 PCIe 直接写入 L3 cache,使得 CPU 可以在 L3 cache 中命中网卡写入的数据,从而节约 CPU 读写内存的延时。
image.png

4、 其他优化措施

优化措施 1:调整 CPU 频率和内存频率
倚天 710 在 128C 配置下 CPU 频率默认为 2.75GHz,内存频率默认为 4400MHz,这主要是为了功耗和稳定性考虑。但经过初步测试和评估,提高 CPU 频率到 3.0GHz 和内存频率 4800MHz 后,极限压力场景下 CPU 和整机功耗均远小于额定功率。

优化措施 2:使用 Bolt 进行编译优化
BOLT 是一个编译器动态反馈优化工具,主要依据生产环境的实际运行数据,反哺指导编译器对程序代码进一步调整编译优化策略,提高分支预测准确率和指令 Cache 命中率,达到深度调优、提升产品应用核心竞争力目的。
image.png

5、总结与展望

通过上述的优化措施可以看到,业务性能对计算、访存、网络/IO 等都有很高的要求。倚天作为云原生处理器芯片,具有强悍的计算性能,在通过深入移植适配调优后能够更好的发挥 CPU 的性能,使得业务性能得到大幅的提升。

相关文章
|
16天前
|
安全 网络安全 API
构筑安全堡垒:云计算环境中的网络安全策略与实践
【4月更文挑战第23天】 随着企业逐渐将关键业务迁移至云平台,云计算服务的安全性成为不容忽视的重要议题。本文深入探讨了在动态且复杂的云环境中,如何通过一系列创新和实用的策略来强化网络安全防护。我们分析了云计算服务模型(如IaaS、PaaS、SaaS)所面临的独特安全挑战,并提出了相应的防御机制,包括数据加密、身份验证、访问控制、威胁检测与响应等。文章还讨论了信息安全管理的最佳实践,以及如何在保障数据隐私和合规性的同时提高系统的整体安全性。
|
18天前
|
存储 云安全 安全
云计算环境下的网络安全策略与实践
【4月更文挑战第20天】 随着云计算技术的蓬勃发展,企业和个人日益依赖于云服务来存储、处理和交换数据。然而,这种便利性背后潜藏着安全风险,特别是在数据隐私、完整性和可用性方面。本文深入探讨了在云计算环境中实施有效网络安全措施的必要性,分析了当前云安全的最佳实践,并提出了一套多层次防御策略,以增强云服务的安全性。通过结合先进的加密技术、身份验证协议、入侵检测系统以及持续的安全监控,我们旨在为读者提供一套全面的云计算安全解决方案蓝图。
25 9
|
8天前
|
人工智能 安全 网络安全
云计算环境下的网络安全策略与实践
【4月更文挑战第30天】本文聚焦于当前快速发展的云计算环境中的网络安全问题。首先,分析了云服务模式对传统网络架构的冲击和安全挑战;然后,探讨了在多租户、资源共享的前提下,如何保障数据隔离、访问控制及传输安全等关键安全要素;进一步地,提出了一系列创新的安全机制,包括基于行为分析的入侵检测系统、加密技术的最新应用,以及利用人工智能进行安全事件预测和管理的策略。最后,结合案例分析,评估了这些策略在现实业务中的有效性,并展望了未来云计算与网络安全融合发展的趋势。
|
9天前
|
安全 网络安全 量子技术
网络安全与信息安全:保护数字世界的锁与钥构建安全防线:云计算环境中的网络安全策略与实践
【4月更文挑战第29天】在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源的防线。本文深入探讨了网络安全漏洞的成因、加密技术的进展以及提升安全意识的重要性。通过对网络威胁的分析,我们揭示了安全漏洞的本质和它们如何被黑客利用。接着,文章详细解读了现代加密技术,包括对称加密、非对称加密和散列函数,并强调了量子计算对未来加密的潜在影响。最后,通过教育和技术实践的建议,我们强调了培养全民网络安全意识的必要性。 【4月更文挑战第29天】 在数字化转型的浪潮中,云计算作为支撑企业敏捷性与效率的关键基础设施,其安全性受到了前所未有的关注。本文深入探讨了云计算环境下所面临的独特安全挑战,并提出
|
2天前
|
运维 安全 网络协议
即时通讯安全篇(十四):网络端口的安全防护技术实践
网络端口因其数量庞大、端口开放和关闭的影响评估难度大,业务影响程度高、以及异常识别技术复杂度高等特点给网络端口安全防护带来了一定的挑战,如何对端口风险进行有效治理几乎是每个企业安全团队在攻击面管理工作中持续探索的重点项。
14 0
|
3天前
|
存储 安全 网络安全
云端防御:云计算环境中的网络安全策略与实践
【5月更文挑战第6天】 随着企业和个人日益依赖云服务,数据存储、处理和流通的边界变得模糊。这种转变不仅带来了灵活性和成本效益,也引入了新的安全挑战。本文探讨了云计算环境下网络安全的关键问题,包括身份验证、数据加密、访问控制和威胁监测等。通过分析当前云安全的最佳实践和面临的挑战,我们提出了一系列战略性措施以增强云基础设施的安全性,并确保信息资产的保密性、完整性和可用性得到保护。
27 5
|
7天前
|
安全 网络安全
网络安全攻防实战演练:技术探索与实践
【5月更文挑战第1天】网络安全攻防实战演练,通过模拟攻击与防御,提升组织应对网络安全威胁的能力。演练包括准备、攻击、防御和总结四个阶段,涉及环境搭建、攻击技术应用、防御措施执行及后期评估。此类演练有助于检验安全防护能力,提升应急响应速度,暴露系统隐患,加强团队协作,是保障网络安全的关键实践。
|
8天前
|
机器学习/深度学习 监控 安全
云端防御战线:云计算环境下的网络安全策略与实践
【4月更文挑战第30天】 随着企业纷纷将数据和服务迁移至云平台,云计算环境的安全性成为不容忽视的问题。本文针对当前云计算环境中存在的安全风险进行了深入剖析,并提出了一系列切实可行的安全策略与措施。文章首先概述了云计算服务模型及其固有的安全挑战,接着详细讨论了网络安全防护的最佳实践,包括身份验证、数据加密、入侵检测和安全事件管理等关键技术的应用。此外,文中还强调了制定综合安全政策、进行持续监控和评估的重要性。通过这些综合性策略的实施,旨在为云计算环境下的信息安全管理提供一套全面的解决框架。
|
8天前
|
云安全 人工智能 安全
构筑安全之盾:云计算环境下的网络安全策略与实践
【4月更文挑战第30天】 随着企业数字化转型的深入,云计算已成为支撑现代业务架构的关键基石。然而,伴随云服务带来的便利性、灵活性和成本效益,也产生了前所未有的安全挑战。本文针对当前云计算环境中的网络安全问题展开深入探讨,分析了云服务模型(IaaS, PaaS, SaaS)在安全防御上的不同要求,并提出了相应的安全策略和技术措施。文章不仅审视了传统的安全机制在云环境下的适用性,还探讨了新兴技术如区块链、人工智能在增强云安全方面的潜力。通过案例分析,本文旨在为读者提供一套综合性的云安全解决方案框架,以助力企业在享受云计算带来的优势的同时,有效防范和应对网络安全威胁。
|
9天前
|
云安全 安全 网络安全
云端守卫:云计算环境中的网络安全策略与实践
【4月更文挑战第30天】在数字化浪潮中,云计算以其弹性、可伸缩性和成本效率成为企业IT架构的核心。然而,随着数据和应用不断向云端迁移,网络安全威胁也随之增加。本文深入探讨了云计算环境下的网络安全挑战,并提出了综合性的安全策略和最佳实践。通过分析云服务模型的特点,我们讨论了公有云、私有云和混合云中存在的安全风险,并提出了相应的解决方案。同时,文章也强调了信息安全管理的重要性,包括数据加密、访问控制和持续监控。最后,我们概述了未来云计算安全发展的趋势,旨在为读者提供一套全面的云安全指南。
http://www.vxiaotou.com