大数据&AI产品月刊【2024年2月】

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【人工智能平台 PAI】新功能/规格 - EAS一键部署AI视频生成应用    

基于EAS一键部署AI视频生成应用,快速实现文生视频。


【人工智能平台 PAI】新功能/规格 - EAS-Serverless模型服务灰度邀测    

Serverless的场景化使用场景中,免费拉起服务,仅对实际调用计费。


【人工智能平台 PAI】新功能/规格 - DLC(分布式训练)支持提交使用闲时资源的训练任务    

训练使用闲时资源提交任务,借用空闲配额来提高算力利用率。


【人工智能平台 PAI】新功能/规格 - Designer支持LLM数据预处理算子及常用模板

Designer支持LLM数据预处理算子及常用模板。


【人工智能平台 PAI】功能优化 - EAS极简部署功能发布    

提供一键式简化版的部署方式,快速拉起模型服务。


【人工智能平台 PAI】新地域/新可用区 - QuickStart在国际站发布    

快速开始(QuickStart)开通对新加坡地域的支持,您在该地域可以开始使用QuickStart产品。


【实时数仓 Hologres】新功能/规格 - Holoweb支持Query 洞察,快速关联表元数据

Holoweb支持Query 洞察,快速关联表元数据,提升Query诊断。


【实时数仓 Hologres】新功能/规格 - Runtime Filter支持多个字段Join    

优化多个字段join过程程中的数据扫描量,提升Join性能。


【实时数仓 Hologres】功能优化 - Holoweb支持Explain算子可视化    

Holoweb支持Explain算子可视化,提供更准确的plan可视化图。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless Spark 邀测发布

E-MapReduce(以下简称:"EMR")Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。


【开源大数据平台 E-MapReduce】新功能/规格 - 向量检索 Milvus 版 邀测发布

阿里云向量检索 Milvus 版是阿里云提供的 Serverless Milvus 全托管服务,100% 兼容开源 Milvus,提供高性能、可扩展、大规模 AI 向量数据库相似性检索服务,具备开箱即用、弹性可扩展、全链路监控告警的能力,同时提供开源 Attu 的可视化工具。适用于各种 AI 应用场景,如:多模态搜索、RAG、广告推荐、内容风险识别等。


【实时计算 Flink版】新功能/规格 - 任务编排(公测)    

通过可视化的操作界面轻松地编排批作业运行的顺序,调度批作业任务的运行。


【实时计算 Flink版】新功能/规格 - 查询脚本支持Call和DDL、DQL、DML语法

查询脚本中创建管理Catalog、表、数据查询、数据管理等。


【实时计算 Flink版】功能优化 - 优化MySQL CDC    

优化MySQL CDC指定偏移量或者时间戳进行启动的数据读取速度。


【实时计算 Flink版】功能优化 - MySQL Catalog功能增强    

在MySQL Catalog对Tinyint(1)的支持,确保数据一致性。


二、产品活动

阿里云大数据AI上云采购季重磅来袭!    

阿里云大数据AI产品年度优惠,AIGC大模型最佳实践,完整的AI大模型开发训练和部署方案,更有部分入门规格首月1元起,一键前往。


三、产品快讯

阿里云PAI大模型RAG对话系统最佳实践    

大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,可以掌握构建一个大模型RAG对话系统的完整开发链路。


AI加速引擎PAI-TorchAcc:整体介绍与性能概述    

PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架,提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。PAI-TorchAcc借助社区PyTorch/XLA,通过 LazyTensor 技术将Pytorch代码转换为静态执行图,基于计算图,结合阿里云上的计算资源情况,进行了大量的GPU硬件上模型训练的针对性分布式优化、计算优化。


AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践    

阿里云人工智能平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对PyTorch性能在OLMo 1B上加速比达到1.64X,在OLMo 7B上加速比达到1.52X。本文介绍如何使用PAI-TorchAcc加速OLMo模型训练,分析PAI-TorchAcc 的性能收益来源。


四、产品学习指南

【客户案例】心动基于阿里云DataWorks构建游戏行业通用大数据模型    

心动创立于 2003年,是一家全球游戏开发和发行商,拥有丰富的研发、发行和代理运营经验。心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。


【客户案例】友盟+Hologres:千亿级多维分析平台建设实践    

友盟+ 作为国内最大的移动应用统计服务商,其统计分析产品 U-App & U-Mini & U-Web 为开发者提供基础报表及自定义用户行为分析服务,能够帮助开发者更好地理解用户需求,优化产品功能,提升用户体验,助力业务增长。分享友盟U-App 背后的技术实现,以及友盟在行为分析和画像分析场景上的最佳实践。


【客户案例】飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践    

飞书深诺集团致力于在出海数字营销领域提供全链路服务产品。在广告效果监控和游戏运营业务场景中,为了及时响应广告投放成效与消耗方面的问题和快速监测运营动作效果,实时或准实时数据处理提供了至关重要的技术支撑。为了满足日益发展的需求,最终决定基于Flink + Hudi + Hologres来构建阿里云云原生实时湖仓,并在文中探讨实时数据架构的具体落地实践。


【最佳实践】通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践    

Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
分布式计算 Java 数据库连接
实时数仓 Hologres产品使用合集之该创建外部表maxCompute的这个服务器列表如何解决
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
21 0
|
4天前
|
人工智能 分布式计算 Cloud Native
大数据&AI产品月刊【2024年4月】
大数据&AI产品技术月刊【2024年4月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
4天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
4天前
|
消息中间件 人工智能 监控
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
【AI 场景】如何使用 AI 向客户推荐个性化产品?
【5月更文挑战第3天】【AI 场景】如何使用 AI 向客户推荐个性化产品?
【AI 场景】如何使用 AI 向客户推荐个性化产品?
|
4天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
26 0
|
4天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
32 1
|
4天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在 MaxCompute 中,有LEAST 的内置函数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
4天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
23 0
|
4天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0

相关产品

  • 云原生大数据计算服务 MaxCompute
  • http://www.vxiaotou.com