大数据公共数据集上线,免费试用TB级数据分析

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),通过DataWorks与MaxCompute快速完成大数据分析。

一、实验简介

本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),快速完成大数据分析。

实验目标:

通过DataWorks+MaxCompute完成离线查询分析

通过Hologres完成外表加速查询分析

免费试用产品:

DataWorks 按量付费

MaxCompute 5000CU时+100GB存储

Hologres 5000CU时+20GB存储

二、环境准备

开通大数据开发治理平台DataWorks

选择上海Region开通DataWorks免费试用

如果无法享受免费试用可以开通DataWorks按量付费

image.png

开通大数据计算引擎MaxCompute

选择上海Region开通MaxCompute免费试用

如果无法享受免费试用可以开通MaxCompute按量付费(可能产生费用)

开通实时数仓Hologres

选择上海Region开通Hologres免费试用

如果无法享受免费试用可以开通Hologres共享集群(湖仓加速版)(可能产生费用)

二、离线大数据查询分析

创建DataWorks工作空间并绑定MaxCompute

前往DataWorks管控台

创建DataWorks工作空间

image.png绑定MaxCompute计算引擎

image.png

前往DataWorks数据分析

https://da-cn-shanghai.data.aliyun.com/#/query

若左侧目录无数据集,请删除或在列表重新添加目录

image.png

阿里电商数据集分析

本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的真实商品数据,近12亿条记录,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。

在欢迎页打开默认SQL文件(若无欢迎页,请确认开通region为上海后,关闭所有便签页,从默认页面打开)

image.png

选择分析执行引擎MaxCompute

image.png

点击运行后查看结果

image.png

点击查看默认生成图表

image.png

Github事件数据集分析

大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。

打开动态更新-Github事件数据集-查看详情,在数据集详情页打开SQL示例文件

image.png

选择分析执行引擎MaxCompute,运行查看结果

image.png

自定义数据集分析

单击任意表,打开表详情页,查看字段信息

image.png

点击生成SQL语句,并运行,进行数据预览

image.png

新建SQL文件,撰写自定义SQL语句,进行自由分析

基于MaxCompute引擎分析需要在每个文件执行打开MaxCompute三层模型开关

SET odps.namespace.schema=true;---打开MaxCompute三层模型

image.png

四、外表加速查询分析

前往Hologres管控台,新增数据库

image.png

选择购买的示例,输入数据库名称,选择SPM(简单模式)

image.png

Holoweb-元数据管理中,登录数据库

image.png

Holoweb-SQL编辑器中,复制以下SQL,无需将数据导出至Hologres,即可通过外表加速查询能力(Hologres配置越高,查询速度越快)

----本示例可以基于公共数据集统计淘宝活跃下单时间并排序IMPORT FOREIGN SCHEMA "bigdata_public_dataset#commerce"LIMIT to
(commerce_ali_e_commerce)FROM SERVER odps_server INTO public OPTIONS(if_table_exist 'update',if_unsupported_type 'error');---创建Hologres外表SET odps.namespace.schema=true;---打开MaxCompute三层模型SELECT  CASE    WHEN SUBSTR(behavior_time,12)::int>=0AND SUBSTR(behavior_time,12)::int<=3 THEN '0点-3点'                WHEN SUBSTR(behavior_time,12)::int>=4AND SUBSTR(behavior_time,12)::int<=7 THEN '4点-7点'                WHEN SUBSTR(behavior_time,12)::int>=8AND SUBSTR(behavior_time,12)::int<=11 THEN '8点-11点'                WHEN SUBSTR(behavior_time,12)::int>=12AND SUBSTR(behavior_time,12)::int<=15 THEN '12点-15点'                WHEN SUBSTR(behavior_time,12)::int>=16AND SUBSTR(behavior_time,12)::int<=19 THEN '16点-19点'                WHEN SUBSTR(behavior_time,12)::int>=20AND SUBSTR(behavior_time,12)::int<=23 THEN '20点-23点'        END AS 下单时间 
,COUNT(*)AS 订单数---统计订单总数FROM    commerce_ali_e_commerce
GROUPBY 下单时间
ORDERBYCOUNT(*)DESCLIMIT100

image.png


三、后续体验

除了数据分析,DataWorks还包含了数据建模、数据集成、数据开发、数据调度、数据运维、数据地图、数据质量、数据治理、数据安全、数据服务等众多大数据开发治理平台能力,帮助企业快速构建大数据平台,可参考文档《零售电子商务数仓搭建》

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
AI算法分析,智慧城管AI智能识别系统源码
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年3月】
大数据&AI产品技术月刊【2024年3月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
1月前
|
机器学习/深度学习 人工智能 供应链
AI智能分析
AI智能分析运用人工智能技术对数据进行深度挖掘和模式识别,助力商业智能、法律分析、医疗健康、股票市场、产品设计和技术研发等领域。通过机器学习和深度学习,AI能优化商业策略、提升诊断精度、辅助投资决策,并解决技术难题,为各行各业提供精准洞察和决策支持。
28 1
|
2月前
|
人工智能 监控 算法
java智慧城管源码 AI视频智能分析 可直接上项目
Java智慧城管源码实现AI视频智能分析,适用于直接部署项目。系统运用互联网、大数据、云计算和AI提升城市管理水平,采用“一级监督、二级指挥、四级联动”模式。功能涵盖AI智能检测(如占道广告、垃圾处理等)、执法办案、视频分析、统计分析及队伍管理等多个模块,利用深度学习优化城市管理自动化和智能化,提供决策支持。
234 4
java智慧城管源码 AI视频智能分析 可直接上项目
|
1天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI】生成式AI,对话式AI,LLM,SLM 差异分析
【5月更文挑战第6天】生成式AI,对话式AI,LLM,SLM 学习
|
3天前
|
SQL 存储 分布式计算
如何使用MaxCompute进行数据分析?
【5月更文挑战第6天】如何使用MaxCompute进行数据分析?
12 1
|
5天前
|
机器学习/深度学习 人工智能 算法
深入分析自动化测试中AI驱动的测试用例生成
【5月更文挑战第4天】随着人工智能(AI)技术的飞速发展,其在软件测试领域的应用也日益广泛。特别是在自动化测试过程中,AI技术能够显著提高测试用例的生成效率和质量。本文将探讨AI在自动化测试用例生成中的应用原理、优势以及面临的挑战,并展示通过AI技术优化测试流程的实际案例。
37 8
|
10天前
|
机器学习/深度学习 人工智能 算法
深入分析自动化测试中AI驱动的测试用例生成技术
【4月更文挑战第29天】随着人工智能技术的不断发展,其在软件测试领域的应用也越来越广泛。本文主要探讨了AI驱动的测试用例生成技术在自动化测试中的应用,以及其对提高测试效率和质量的影响。通过对现有技术的深入分析和实例演示,我们展示了AI如何通过学习和理解软件行为来自动生成有效的测试用例,从而减少人工编写测试用例的工作量,提高测试覆盖率,降低错误检测的成本。
|
14天前
|
人工智能 搜索推荐 大数据
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    28
  • 2
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    23
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    30
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    23
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    23
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    24
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    30
  • 8
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    26
  • 9
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    29
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    22
  • http://www.vxiaotou.com