|
存储 算法 测试技术
|

Cuckoo Hashing的应用及性能优化

Cuckoo Hash Table 使用了两个哈希函数来解决冲突。Cuckoo查询操作的理论复杂度为最差O(1),而Cuckoo的插入复杂度为均摊O(1)。我们引入Cuckoo是希望它在实际应用中,能够在较高的空间利用率下,仍然维持不错的查询性能。

11446 1
来自: 智能搜索推荐  版块
|
分布式计算 大数据 数据挖掘
|

大数据Workshop:《云数据·大计算:海量日志数据分析与应用》环境准备

本手册为阿里云MVP Meetup Workshop之《云计算·大数据:海量日志数据分析与应用》场的前提准备条件所需。

6004 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 自然语言处理 算法
|

基于数加分析政府工作报告

摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。

6090 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。

7447 0
来自: 大数据计算 MaxCompute  版块
|
运维 数据可视化 算法
|

阿里集团搜索中台TisPlus

? ? ? ? ? ? ? ? ? ? ? ??阿里集团搜索中台TisPlus 搜索中台的发展 ? ??从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段,那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。

8416 0
来自: 智能搜索推荐  版块
|
分布式计算 大数据 测试技术
|

从未停止进化的MaxCompute

2017云栖大会·杭州峰会将于10月10日-14日在杭州云栖小镇隆重举行,据相关数据显示大会多场主题分论坛门票都已经售罄。在这110余场主题分论坛中,可能备受大家最为感兴趣是人工智能、大数据的专场。大数据的热度在深圳峰会、成都峰会、上海峰会都逐一印证。

6298 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute
|

MaxCompute优化系列-如何使用`MAPJOIN` ?

MAPJOIN 当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。 另外,MAPJOIN 还能解决数据倾斜的问题。 MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。

8890 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 MaxCompute
|

基于MaxCompute的图计算实践分享-图加载过程

一、前言 MaxCompute?Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在;

5951 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL

SQL基础有这些操作(按照执行顺序来排列): from join(left join, right join, inner join, outer join ,semi join) where group by select sum distinct count order by 如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。

6789 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 测试技术
|

手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch,所以花了点时间好好研究了下,用过之后发现效果不错,自带分词、云数据库同步功能,在研究过程中也发现了一些问题,分享给大家。

6485 0
来自: 大数据计算 MaxCompute  版块
|
存储 大数据 PHP
|

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。

6307 0
|
监控 安全 大数据
|

【入门指南】操作阿里云Kibana

Elastic公司的“ELK”是目前最火的日志分析三剑客,其中ElasticSearch负责日志的索引,Logstash负责日志的收集,Kibana负责日志的展示和分析。Elastic与阿里云达成了合作伙伴关系,推出“阿里云 Elasticsearch”服务,提供了开箱即用的Elasticsearch和Kibana环境。

8886 0

使用Spark Streaming SQL基于时间窗口进行数据统计

流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例,介绍如何使用Spark Streaming SQL对事件时间进行操作。

8250 0
|
大数据 数据挖掘 关系型数据库
|

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据分析展现:可视化报表及嵌入应用》篇

本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据分析展现:可视化报表及嵌入应用》篇而准备。主要阐述如何使用Quick BI制作报表,将前面几个实验处理分析得来的数据进行有效的展现和洞察。

6031 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 算法 大数据
|

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理

转载自xingbao ? ? 各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第一篇,今天主要介绍多租户(QuotaGroup)管理的实现 一、FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所

7255 0
来自: 大数据计算 MaxCompute  版块
|
SQL 缓存 分布式计算
|

通过可视化更好的了解你的Spark应用

图的最大价值是它会推动我们去注意到那些我们从未预料到的东西。 – John Tukey Spark 1.4中对Spark UI进行改进,更加突出可视化的效果。我们来看一下他的主要的改动,主要包含三个方面: Spark事件的时间线视图 执行的DAG图 Spark Streaming 的可视化

5823 0
|
存储 分布式计算 大数据
|

万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛

DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

5908 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 监控 大数据
|

利用MaxCompute内建函数及UDTF转换json格式日志数据

本文介绍了如何使用MaxCompute UDF对JSON格式的日志进行信息提取和转换。

14370 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Apache
|

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。

5779 0
|
分布式计算 安全 大数据
|

企查查支撑8000万+企业数据的大数据平台技术选型与实现

企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

7396 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 分布式计算 安全
|

阿里云MaxCompute 2019-1月刊

亲爱的开发者们,,MaxCompute 2019.1月刊为您带来产品最新动态和丰富的产品技术内容,欢迎阅读。

5899 0
来自: 大数据计算 MaxCompute  版块
|
存储 监控 大数据
|

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于Blink为新商业调控打造实时大数据交互查询服务 从IT到DT、从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖掘大数据的价值成为抢占未来先机的金钥匙!传统的大数据开发主要基于离线计算平台MaxCompute(ODPS)进行天级别、小时级别的批量数据分析,但近些年随着618、99.

6381 0
来自: 实时计算 Flink  版块
|
监控 数据可视化 大数据
|

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》实验环境准备

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》实验环境准备

5495 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute 存储
|

阿里云MaxCompute 2019-8月刊

MaxCompute存储降价,MaxCompute Spark 全Region开放服务以及更多8月产品最新动态,尽在8月刊。

5594 0
来自: 大数据计算 MaxCompute  版块
|
SQL 资源调度 测试技术
|

YARN ResourceManager重启作业保留机制

YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束

7300 0
|
分布式计算 大数据 Hadoop
|

EMR集群上capacity scheduler的ACL实现

本文接着yarn capacity scheduler的实现原理,介绍了capacity scheduler的设置和其中需要注意的问题,并结合EMR集群做了实际操作实验。

5663 0
|
分布式计算 算法 大数据
|

MaxCompute 2.0—从ODPS到MaxCompute

本文PPT来自大数据计算平台开发负责人关涛于10月15日在2016年杭州云栖大会上发表的《MaxCompute 2.0—从ODPS到MaxCompute》。

6692 0
来自: 大数据计算 MaxCompute  版块
|
SQL 调度 分布式计算
|

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

8941 0
|
大数据
|

DT时代已经悄然来临,IT人您跟上了吗?

什么是DT时代? ????????在2015年中国(深圳)IT领袖峰会上,马云发表演讲:过去7年我们从互联网创业到互联网产业,很快进入互联网经济,而且正在从IT走向DT时代,也许昨天称为IT领袖峰会,未来要称DT领袖峰会,DT不仅仅是技术提升,而是思想观念的提升。

5822 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 消息中间件
|

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

Connector 是连接外部数据和blink计算框架的桥梁,也是流计算的入口和出口。目前,blink支持了集团内部绝大多数的上下游(如下图),详细的接入方法可以见官方文档,本文主要阐述connector设计和使用上需要注意的问题。

6800 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 并行计算
|

阿里云机器学习平台PAI,助力降低机器学习的成本和技术门槛

摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。 ? 本文内容根据嘉宾演讲视频以及PPT整理而成。

6331 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 BI
|

AQN:一种通过交替量化对深度学习模型压缩以及加速推理的方法

本文提供了一种对深度学习模型量化压缩以及加速推理的方法

6470 0
来自: 智能搜索推荐  版块
|
分布式计算 资源调度 大数据
|

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

6658 0
|
分布式计算 MaxCompute
|

如何理解maxcompute常见报错信息?【阿里云MVP月度分享】

貌似大部分人在遇到报错的时候,都懒得用翻译软件翻译报错信息,一般直接抛出来问,甚至连报错信息都懒得复制,直接截图出来。所以这里特地总结了一下,最近一段时间有人经常在群里问到的报错信息。 ODPS-0130252:Cartesian product is not allowed “不允许笛卡尔积”主要是为了防止用户误操作,不小心漏了关联条件,造成大量的资源的耗费。

9204 0
来自: 大数据计算 MaxCompute  版块
|
SQL 数据采集 大数据
|

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。

5751 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute - ODPS重装上阵 第三弹 - 复杂类型

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

7718 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 新零售 开发工具
|

拍立淘Open SDK-在你的App里用相机连接淘宝和世界

使用拍立淘OpenSDK,可以在你的App里用相机连接淘宝和世界。。。

7410 0
来自: 智能搜索推荐  版块
|
SQL 关系型数据库 MySQL
|

Hive MetaStore同步方法

5855 0
|
SQL 分布式计算 监控
|

MaxCompute百问集锦(持续更新)

大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

5812 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

三分钟教你学会分析MaxCompute消费明细

很多用户经常被MaxCompute收费所困扰,比如执行了一条 select xxx from yyy 然后扣费1元 ,不知道如何查询到明细,也无法做优化。 接下来,我来教大家学习如何通过控制台消费功能查看你在MaxCompute(DataWorks/Studio)中的每一条SQL/MR计算、存储、下载的消费明细。

6304 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 新零售 人工智能
|

阿里推荐与搜索引擎 - AI·OS综述

AI·OS(Online Serving),大数据深度学习在线服务体系,由我们工程、算法、效率的同事们砥砺十年而成,支撑起海内外阿里电商全部的搜索和推荐业务,时刻置身大数据主战场,引导成交占据集团大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施;更为重要的是,AI·OS体系的云产品矩阵服务于全球开发者,今年预期在数千万级的营收规模。

10850 0
来自: 智能搜索推荐  版块
|
消息中间件 分布式计算 Kafka
|

基于MaxCompute构建Noxmobi全球化精准营销系统

摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

5425 0
来自: 大数据计算 MaxCompute  版块
|
流计算 网络协议 Apache
|

咱们从头到尾讲一次 Flink 网络流控和反压剖析

文章将从网络流控的概念与背景、TCP的流控机制、Flink TCP-based 反压机制(before V1.5)、Flink Credit-based 反压机制 (since V1.5)、总结与思考等几个方面进行分享。

5846 1
来自: 实时计算 Flink  版块
|
分布式计算 大数据 API
|

R语言和大数据

分布式的R

5518 0
来自: 大数据计算 MaxCompute  版块
|
新零售 机器学习/深度学习 算法
|

千亿特征流式学习在大规模推荐排序场景的应用

摘要:2017云栖大会机器学习平台PAI专场,阿里巴巴高级技术专家陈绪带来千亿特征流式学习在大规模推荐排序场景的应用的演讲。主要从电商个性化推荐开始谈起,进而描述了技术挑战和PAI解决方案,重点分享了鲲鹏框架和算法调优,最好作了简要总结。

5400 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 消息中间件 存储
|

携程实时智能检测平台建设实践

rophet基本覆盖了携程所有业务线,监控指标的数量达到10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于Flink实时计算引擎来实现异常的实时预警,提供一站式异常检测解决方案。

5675 0
来自: 实时计算 Flink  版块
|
运维 算法 大数据
|

基于实时计算(Flink)与高斯模型构建实时异常检测系统

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1. 概述 异常检测(anomaly detection)指的是对不符合预期模式或数据集(英语:dataset)中其他项目的项目、事件或观测值的识别。

7705 0
来自: 实时计算 Flink  版块
|
SQL Web App开发 存储
|

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性、简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略。

5377 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 大数据
|

如何用大数据开发套件周期调度机器学习算法

讨论如何用大数据的开发套件的调度功能和机器学习产品,进行自动化调度的机器学习计算。

5289 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Spark
|

阿里云大数据+AI技术沙龙上海站回顾 | ?揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。

6372 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

119
今日
55094
内容
95
活动
437099
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务
  • http://www.vxiaotou.com