SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(上)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: SREWorks云原生数智运维工程实践-云原生运维实战篇

 

大数据运维在阿里云实时计算集群的落地实践以数智为内核驱动的实时计算运维体系,解决稳定性、成本、效率三大运维领域需求。

 

摘要:本文整理自阿里云计算平台事业部实时计算高级运维专家王华尚付在FlinkForward Asia 2021生产实践专场的演讲。

 

一、 演进历史和运维挑战

 

image.png 

 

阿里的实时计算经历了近10年的快速发展,总体来说可以分成三大时代:

 

? 1.0时代:2013年到2017年,三大实时计算引擎并存。大家熟悉的Jstorm和Blink当时都还叫做流式计算。

? 2.0时代:2017年集团合并了三大实时计算引擎,Blink凭借着出色的性能、高效的吞吐成为唯一的实时计算引擎,实现了大一统。在接下来的4年里,集团所有实时计算业务全部迁移到Blink,阿里的实时计算业务经历了最飞速的增长,平台规模体量也从千级别增长到万级别,实时计算all on Blink。

? 3.0时代:随着前两年阿里收购了德国Flink母公司,阿里中国和德国团队联手打造了基于云原生新底座、搭载Flink开源新引擎的VVP新平台。在2021年双11,VVP新平台以大幅度的性能提升平稳支撑了双11,宣告着阿里实时计算进入了全新的3.0时代。

 

目前,阿里的实时计算已经拥有了几百万核算力,几万台物理机,几万个作业,真正形成了一个超大规模的实时计算平台。而且在业务飞速发展过程中,平台整体的架构从云下的Hadoop Flink正在全面往云原生K8s加Flink大规模演进中。

 

image.png 

 

面对这样一个实时计算的庞然大物,运维也随着时代变迁面临了不同的挑战:

 

? 第一阶段是平台运维,核心是帮助SRE解决超大规模体量的平台运维,也就是Flink Cluster集群运维的难题

? 第二阶段是应用运维,核心是帮助集群上大量的实时计算用户解决应用侧Flink作业运维复杂的难题

? 第三阶段是随着3.0时代的到来,集群底座全面云原生化,全域数据也随着云原生而标准化,运维能力如何向云原生和智能化快速演进和提升,成为我们新的挑战。

 



相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
5天前
|
消息中间件 运维 Kubernetes
构建高效自动化运维体系:Ansible与Kubernetes的融合实践
【5月更文挑战第9天】随着云计算和微服务架构的普及,自动化运维成为确保系统可靠性和效率的关键。本文将深入探讨如何通过Ansible和Kubernetes的集成,构建一个强大的自动化运维体系。我们将分析Ansible的配置管理功能以及Kubernetes容器编排的优势,并展示如何将二者结合,以实现持续部署、快速扩展和高效管理现代云原生应用。文章还将涵盖实际案例,帮助读者理解在真实环境下如何利用这些工具优化运维流程。
|
3天前
|
运维 Prometheus 监控
构建高效稳定的云原生运维体系
【5月更文挑战第17天】 在数字化转型的浪潮中,企业纷纷采纳云原生技术以提高敏捷性和弹性。本文将探讨构建一个高效且稳定的云原生运维体系的关键要素,包括自动化、监控、日志管理、灾难恢复和持续学习等方面。通过深入分析这些要素及其相互作用,旨在为运维团队提供一套实用的策略框架,以应对不断变化的技术挑战,确保业务连续性和系统可靠性。
|
3天前
|
运维 监控 Cloud Native
构建高效稳定的云原生运维体系
【5月更文挑战第17天】在当今的数字化转型浪潮中,云原生技术以其弹性、敏捷和可扩展的特点成为企业IT架构的首选。然而,随之而来的复杂性也给运维工作带来了前所未有的挑战。本文将探讨如何构建一个高效且稳定的云原生运维体系,覆盖从容器化部署、微服务管理到自动化监控与故障恢复的各个方面。通过实践案例分析和最佳实践的提炼,旨在为企业运维团队提供一套行之有效的策略框架。
|
3天前
|
运维 监控 Cloud Native
构建高效稳定的云原生运维体系
【5月更文挑战第17天】在数字化转型的浪潮中,企业纷纷将业务迁移到云平台以获得更大的灵活性和扩展性。然而,随之而来的是日益复杂的运维管理挑战。本文旨在探讨如何构建一个高效且稳定的云原生运维体系,通过自动化、微服务架构和持续集成等关键技术手段,实现系统的高可用性和敏捷性。文章首先分析了现代运维面临的主要问题,接着详细介绍了云原生运维的核心组件和实践原则,并通过案例分析展示了这些策略在实际中的应用效果。
|
4天前
|
运维 监控 算法
构建高效自动化运维体系的实践与思考
【5月更文挑战第15天】 随着信息技术的飞速发展,企业对IT运维管理的要求越来越高。传统的手动运维已无法满足日益增长的业务需求,因此,构建一个高效、可靠且易于管理的自动化运维体系变得至关重要。本文将探讨在现代企业环境中,如何通过一系列策略和技术手段实现运维自动化,以及在此过程中可能遇到的挑战和解决方案。文章将基于实际案例分析,提供一种系统性的思考框架,帮助读者理解和构建适合自己的自动化运维体系。
|
4天前
|
运维 资源调度 监控
构建高效自动化运维流程的策略与实践
【5月更文挑战第15天】 在现代IT基础设施管理中,自动化运维已成为提高效率、确保稳定性和快速响应变化的关键。本文将探讨构建高效自动化运维流程的策略与实践,重点在于如何通过一系列切实可行的步骤实现从人工密集型到自动化驱动的转变。我们将讨论工具选择、流程设计、最佳实践以及持续改进的重要性,旨在帮助读者构建一个既灵活又可靠的自动化运维环境。
28 3
|
5天前
|
运维 监控 Kubernetes
构建高效自动化运维体系:基于容器技术的持续集成与持续部署(CI/CD)实践
【5月更文挑战第15天】 随着云计算和微服务架构的普及,传统的IT运维模式面临转型压力。为提高软件交付效率并降低运维成本,本文探讨了利用容器技术实现自动化运维的有效策略。重点分析了在持续集成(CI)和持续部署(CD)流程中,容器如何发挥作用,以及它们如何帮助组织实现敏捷性和弹性。通过具体案例研究,文章展示了容器化技术在自动化测试、部署及扩展中的应用,并讨论了其对系统稳定性和安全性的影响。
|
5天前
|
运维 监控 安全
构建高效自动化运维系统:基于容器技术的持续集成与持续部署(CI/CD)实践
【5月更文挑战第14天】 随着DevOps文化的深入人心,持续集成与持续部署(CI/CD)已成为现代软件工程不可或缺的组成部分。本文将探讨如何利用容器技术,尤其是Docker和Kubernetes,构建一个高效、可扩展的自动化运维系统。通过深入分析CI/CD流程的关键组件,我们将讨论如何整合这些组件以实现代码从提交到生产环境的快速、无缝过渡。文章还将涉及监控、日志管理以及安全性策略等运维考量,为读者提供一个全面的自动化运维解决方案蓝图。
|
5天前
|
运维 Kubernetes 持续交付
构建高效自动化运维体系:基于容器技术的持续集成与部署实践
【5月更文挑战第13天】 在现代软件开发周期中,持续集成(CI)和持续部署(CD)已成为提升开发效率、保障产品质量的关键环节。随着云计算和微服务架构的普及,容器技术如Docker和Kubernetes为运维领域带来了革命性的变革。本文旨在探讨如何利用容器技术构建一个高效、可靠的自动化运维体系,实现从代码提交到产品发布的全过程自动化管理。通过深入分析容器化技术的核心原理,结合实际案例,我们将阐述如何优化持续集成流程、确保自动化测试的覆盖率、以及实现无缝的持续部署。
26 2
|
5天前
|
运维 监控 Cloud Native
构建高效稳定的云原生运维体系
【5月更文挑战第13天】在数字化转型的浪潮中,企业纷纷将业务迁移至云端以提升灵活性和效率。然而,随之而来的是日益复杂的运维挑战。本文旨在探讨如何构建一个高效且稳定的云原生运维体系,通过自动化、微服务以及持续集成与持续部署(CI/CD)等策略,实现对动态云环境的精准管理。我们将分析云原生技术的最佳实践,并讨论如何利用这些实践优化资源分配,提高系统可靠性,从而支撑业务的快速迭代和增长。
http://www.vxiaotou.com