数据湖见证从 BI 到 BI+AI的关键技术演进

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: AI大模型时代,云计算、大数据、人工智能等技术迅猛发展,当前时期的软件工程变革已经成为行业内外的共同关注点。近日,QCon 全球软件开发大会·北京站顺利落幕,本次大会以「启航·AIGC 软件工程变革」为主题。作为QCon大会的老朋友,阿里云资深技术专家、对象存储技术负责人-罗庆超受邀出席【面向AI的存储】专场,为大家带来《数据湖见证从BI到BI+AI的关键技术演进》分享。

1. 前言

数据湖作为大数据平台的底层支撑架构,从存储、元数据、计算框架维度提供了良好的支撑。在BI时代,支撑好海量数据存储的稳定性、扩展性、成本是关键技术竞争力;随着AI的兴起,特别是 LLM 大模型计算的热潮,对数据湖也带来在性能、安全性上更多的需求,阿里云数据湖在该领域已有多年探索,希望能够通过本次分享给业界在 BI+AI 的基础设施建设上带来更多思路。

 

 

2. 数据湖支撑场景回顾

回顾数据湖发展历程,最早是由AWS掀起以S3对象存储为底座的数据湖支撑大数据分析,并且将数据湖和数据仓库进行分析比较,推动BI on数据湖浪潮,随着SnowFlake的上市,引爆基于数据湖构建云原生的数仓SaaS服务的高潮。伴随AI兴起,不少AI厂家也基于数据湖来构建应用,它们需要扩展HDFSPOSIX接口来支撑AI引擎机器分析。近期AIGC/LLM热点爆发,也给数据湖带来更多场景需求。



支撑场景的不断扩展,也带来对数据湖分析文件类型的变化,在BI场景下主要还是DB类文件,格式相对简单,就像炒素菜对厨艺要求不那么高一样,对计算的要求很普通,离线离线分析通常X86就可以搞定;在AI场景下则会分析文本、图片、音频、视频等,格式变复杂,就类似炒荤菜对厨艺有较高要求那样,需要更强的计算,采用GPU可以更高效的处理数据;而LLM场景下,则是多种类型组合,就类似做满汉全席大餐的厨艺要求,典型需要配置顶级的GPU来处理。因此,场景背后除了数据存储外,更多隐含了数据分析的计算价值。

 

3. 支撑大数据分析场景关键技术

阿里云以对象存储OSS为存储底座的数据湖,见证了接入自研大数据分析系统MaxCompute(原ODPS)和开源大数据系统EMR的过程,也为支撑好场景提供了关键技术。

 

3.1 接入自研大数据分析MaxComputeMC


OSS数据湖存储对接BI时,对访问权限的“安全设计”一直放在首位。客户的OSS桶作为MaxCompute的外表支持数据分析,如果把桶的所有内容都开放给MC,存在权限过大的问题,如何只分享/test前缀内容给MC呢?最初采用RAM PolicyBucket Policy来授权,但存在复用OSS域名且Bucket Policy粒度大问题,每次修改Policy都会影响其他的配置策略;后来优化为Access Point技术,可为MC访问/test前缀分配单独域名,并绑定细粒度权限。通过该方法实现细粒度控制,在体验方面也得到提升。


数据分析引擎安全接入访问数据后,很显然会存在与客户应用争抢资源的问题,因为两者会同时访问数据湖,如何保证客户应用的带宽、QPS不受BI分析引擎的影响?简单的方法是各业务口头协商通过分时复用,减少两者争抢资源冲突是一种方案,但时间控制较难,无法保证两者不会同时访问,且存在波峰重叠情况。


为了解决此问题,引入了子账号级“流控技术”,通过为子账号限制“带宽、QPS”,保证对客户应用影响在可控范围内。


尽管提供流控技术,毕竟有客户应用和分析引擎的同时访问,为了加速计算速度需要提供更大的带宽,从而保证BI分析引擎在指定时间完成分析,同时减少计算节点等待数据拉取的时间,降低BI分析成本。当前,OSS在北京地域提供100+Gbps/租户”性能,支撑数据分析应用对带宽的需求。

 

3.2 接入开源大数据分析EMR

OSS支撑阿里自研的MaxCompute,底层对象存储的接口无需修改,因为计算引擎会适配。但对接到Hadoop生态开源体系的数据分析引擎时,则存在需要扩展HDFS的问题。众所周知,Hadoop历史上不少计算框架诞生时对象接口还未诞生,所以几乎都是采用HDFS。国外不少企业在基于对象接口新技术开发,但国内挺多企业还在基于历史的开源框架来做生产,也没有更多资源来投入接口改造,小公司甚至都不知道使用那些HDFS接口,该如何改造。若数据湖提供Hadoop依赖的HDFS接口,帮助应用平滑迁移,必然赢得客户支持。


为此,数据湖通过从对象存储OSS扩展出服务化HDFS接口,实100%兼容,让应用平滑迁移。从而客户无需维再护HDFS集群,同时还减少计算节点成本和运维难题,支撑客户聚焦数据湖之上的业务成功。


要支撑好HDFS接口的100%兼容,底层又要依赖对象存储,那么就要“做好对象存储接口适配HDFS的优化工作”。基于数据湖存储提供OSS-HDFS的架构,底层全部直接对接对象存储,中间提供HDFS的目录结构,在计算引擎上安装OSS-HDFS SDK,该SDK把元数据发送到目录结构模块,数据直接发送到对象存储,从而充分利用OSS的能力,而目录结构模块也会直接使用OSS接口来完成数据管理工作。采用该架构,通过HDFS目录结构支持rename原子化,并且对象存储也为它提供批量接口来帮助目录结构实现管理上的优化。

 

3.3 数据湖基于对象存储而不是开源HDFS构建的思考

数据湖存储通过同时支持对象接口和HDFS 接口很好的支持了开源生态,但业界也有不少讨论,为什么用对象存储来构建数据湖,而不是用开源HDFS构建数据湖?


通过如下3个关键竞争力点来分析:

1、稳定性能力。对象存储提供同城冗余(多次抵抗住数据中心级灾难)和本地冗余类型,现在OSS本地冗余类型可线上自助申请转换为同城冗余;同城冗余类型达到129的数据可靠性,以及99.995%的可用性SLA,这比开源HDFS提供了商业化承诺的稳定性能力。


2、扩展能力。对象存储通过桶/对象的多层扩展性设计,支持单桶EB级存储、对象数万亿级能力。主要通过“无状态服务接入层”实现灵活增加机器来提高上传和下载的性能,“索引分区层”实现把 Bucket 的元数据进行动态分裂和负载均衡调度来水平扩展支持万亿对象,“持久层”实现分布式存储管理更多的机器提供容量和性能的水平扩展。而开源HDFS则在超过100PB100亿文件时,就会存在管理运维难题,通过Federation技术来扩展则需要业务层解决联邦成员之间的均衡问题,很难做出通用的均衡方案。


3、成本竞争力。对象存储提供丰富的存储类型,OS从标准类型(0.12/GB/月)分级到深度冷归档(0.0075/GB/月),实现16倍成本优化。基于数据冷热统计,支撑数据生命周期的Policy配置,由对象存储自动完成数据移动。通过开通对象存储访问日志分析,可以掌握数据冷热信息,后续会通过Cloud Lens for OSS呈现,帮助完成生命周期策略配置决策。而HDFS是纯粹的软件,无法提供如此能力。

 

4. 支撑AI场景


目前的AI框架几乎都是基于POSIX文件系统实现,基于对象存储接口实现很少或正在开发中。通过对象存储提供的文件系统插件(例如ossfs),可支持简单文件操作,但支持模型训练需要的复杂接口还有差距。同时要支持好AI的文件系统,为提供更优性价比的存储,通常底层会采用对象存储,也就是说基于对象存储构建POSIS文件系统,从某种角度看算是对象存储扩展出POSIX能力。此时,文件系统和对象存储之间的数据流动效率,则是支撑好AI框架访问数据的关键。


AI业务存在多机分布式训练提高效率的场景,因此对热点数据集有高性能需求。热点数据集需求为单位密度性能,表现为读、写、加载checkpoint时的高带宽,典型如100TB容量提供大于100Gbps带宽;而且性能弹性特征明显,高峰主要是训练(Training)、推理(Inference)场景,其他场景性能变低。


云原生环境的独立性能加速层。在无容器时代,计算需要加速通常利用本地盘实现,此时cache加速就在计算节点内部署。容器时代,节点多采用无状态架构、不持久化数据,便于快速伸缩,为加速访问可采用独立服务器部署Cache。在OSS服务此场景时,OSS为加速热点数据的读访问,提供服务化的加速器,无需客户部署,并且放置在客户容器所在AZ,从而减少网络开销,并按需使用付费、灵活申请释放,降低客户使用成本。

5. 支撑LLM场景


AIGC&LLM场景,GPU成为刚需,也带来新的发展思路。趋势一,就是“通过GPU部署客户端直通存储”减少绕行CPUOS驱动的开销,提高性能、减少CPU的计算成本;优化存储通路,可采用RMDA技术,减少网络栈的性能影响。


大模型时代,GPU是稀缺资源,因此不再是计算随数据而引动,而是数据随GPU走。考虑到计算环境建设的行业性、隔离性,需支持不同 GPU 部署站点的混合云环境,但数据集需要共享,因此数据要在不同安全隔离环境间快速移动,提供“在线、离线的数据迁移服务”是重要的趋势。

 

6. 总结和展望


基于对象存储规模效应,通过大力出奇迹、构建价格洼地,打通汇聚数据的通道,自然天生就是数据湖。基于海量数据就可支撑各种数据分析引擎,构建应用场景生态,对象存储从服务公网访问的“网站、网盘、短视频,演进到服务内网的 BIAILLM”场景,不断拓展边界。为提高分析引擎运行效率,数据湖要提供稳定安全的底座,开发各类适配引擎的功能,优化性价比,持续挖掘数据价值。



未来展望一,就是持续优化性价比。业界大量容盘趋势,但厂家spec中有个“冷知识”,硬盘年访问带宽 小于550TB/Y,按7*24小时工作计算,则平均带宽小于 18.3MB/s;如超过该值,硬盘寿命会受到影响,导致高年故障率(AFR)。同时硬盘容量增长,并不会带来性能提升,因此单位容量IOPSThroughput降低。如何做好调度,将对象存储海量硬盘的能力充分发挥,性能挖潜将是非常重要的工作。



未来展望二,支撑数据分析引擎间的互通互利。不同数据分析引擎有各自特色,同一份数据被多引擎、多维度分析,能充分挖掘价值。数据湖可以通过元数据管理,提供引擎的认证、注册管理,保证引擎的安全可信、质量管控;同时支持数据格式管理,不同分析引擎可以通过理解格式,掌握分析数据的结果;并通过权限管理,授权引擎可以互访数据。长远来看,可以更好的支撑数据交换、数据交易等场景。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
11天前
|
传感器 人工智能 自动驾驶
构建未来:利用AI技术优化城市交通系统
【4月更文挑战第27天】 随着城市化的快速发展,交通拥堵已成为全球城市的普遍问题。本文探讨了人工智能(AI)技术在缓解城市交通压力、提升交通效率方面的应用前景。通过分析智能信号控制、交通流量预测、自动驾驶车辆以及公共交通优化等关键技术的实际案例,评估了AI在现代交通系统中的潜力与挑战。本研究不仅展示了AI技术在改善城市交通中的有效性,同时也指出了实施过程中需要克服的技术和社会障碍。
|
1月前
|
人工智能 自然语言处理 NoSQL
对谈Concured首席技术官:利用AI和MongoDB打造个性化内容推荐系统
内容无处不在。无论消费者寻找什么或所处任何行业,找到内容并不困难;关键在于如何找到对应的内容。
1564 0
|
29天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的突破与应用
近年来,人工智能(AI)技术在医疗领域取得了巨大的突破和应用。本文将介绍AI技术在医疗领域的应用现状和未来发展前景,并探讨其对医疗行业带来的影响。
18 0
|
2天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
2天前
|
机器学习/深度学习 人工智能 安全
用AI技术创业需要哪些技能?
人工智能(AI)技术作为当今科技创新的前沿领域,为创业者提供了广阔的机会和挑战。随着AI技术的快速发展和应用领域的不断拓展,未来AI技术方面会有哪些创业机会呢? 创什么业打工才是程序员的主旋律,没有资源没有人脉怎么创业。
12 0
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
未来AI技术在医疗领域可能带来的变革
【5月更文挑战第7天】未来AI技术在医疗领域可能带来的变革
19 5
|
8天前
|
数据采集 机器学习/深度学习 人工智能
自动化测试中AI辅助技术的应用与挑战
【4月更文挑战第30天】随着人工智能(AI)技术的飞速发展,其在软件自动化测试领域的应用日益增多。本文探讨了AI辅助技术在自动化测试中的应用情况,包括智能化测试用例生成、测试执行监控、缺陷预测及测试结果分析等方面。同时,文章还分析了在融合AI技术时所面临的挑战,如数据质量要求、模型的透明度与解释性问题以及技术整合成本等,并提出了相应的解决策略。
|
9天前
|
机器学习/深度学习 人工智能 监控
构建未来:利用AI技术优化城市交通系统
【4月更文挑战第30天】 在快速发展的城市环境中,交通拥堵已成为一个日益严重的问题。随着人工智能(AI)技术的不断进步,其在交通管理领域的应用展现出了巨大潜力。本文将探讨如何通过集成机器学习、深度学习和大数据分析等AI技术来优化城市交通系统。我们将讨论智能交通信号控制、实时交通流量监控、预测模型以及自动驾驶车辆如何共同作用于缓解交通压力,提升道路使用效率,并最终实现智能、可持续的交通生态系统。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
学习AI技术
【4月更文挑战第30天】学习AI技术
23 4
|
10天前
|
机器学习/深度学习 人工智能 算法
深入分析自动化测试中AI驱动的测试用例生成技术
【4月更文挑战第29天】随着人工智能技术的不断发展,其在软件测试领域的应用也越来越广泛。本文主要探讨了AI驱动的测试用例生成技术在自动化测试中的应用,以及其对提高测试效率和质量的影响。通过对现有技术的深入分析和实例演示,我们展示了AI如何通过学习和理解软件行为来自动生成有效的测试用例,从而减少人工编写测试用例的工作量,提高测试覆盖率,降低错误检测的成本。
http://www.vxiaotou.com