为什么选择ali-E-MapReduce

简介: E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括但不限于Hadoop、Spark、Hbase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。我们提供的软件基本都是开源的软件,会有一些性能的优化,但是绝对不引入任何不兼容的改动。

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

介绍

E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括但不限于Hadoop、Spark、Hbase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。我们提供的软件基本都是开源的软件,会有一些性能的优化,但是绝对不引入任何不兼容的改动。具体实施可以参考:https://www.aliyun.com/product/emapreduce

Hadoop可以处理哪些场景

Hadoop as a service的概念提出由来已久,当前99.9%的公司都在使用Hadoop。目前可以处理几乎所有的场景,如:ETL、实时流式处理、实时查询、机器学习等场景。当前,在阿里云E-MapReduce中,每个场景都有一些用户在使用,后续我们也会提供一些典型的场景给您作为参考。

为什么需要上云

针对这个问题可能业界已经有了一些共识,目前大部分担心数据安全的问题。阿里云是一家云计算、大数据的提供商,我们保证不碰用户的任何数据,保证您的数据不会丢失、不泄漏。
从成本上,我们从几个方面考虑

  • 线下运维成本高,主要涉及到硬件的维护,包括磁盘的损坏维修等,软件版本的更新,一些漏洞补丁的更新等。在云端,您不需要考虑这些事情。
  • 线下机器跟业务之间的不匹配,如果业务发展太快,采购一般很难跟上,跟上了机器基本很长时间处于空闲状态。特别是游戏、互联网之类的公司,往往业务都有波峰、波谷,自建很难满足此类的需求,最后肯定会有大量的机器被闲置或者利用率底下。在云端,资源基本可以动态伸缩,可以跟着业务的压力申请特定的机器,极大节约成本。
  • 线下需要培养每个专业软件的人才,对一些公司很难有大的专业团队支撑大数据专业软件。在云端一般会有专业的技术团队支持的。用户遇到一些棘手的问题,可以第一时间找我们的专家团队解决。我们也会开发出一些诊断的工具,帮您诊断集群、job的性能。

您也会节约大量的精力,把精力投入在您的业务上。从社会发展来看,社会分工会不断精细化,专业人的人干专业的事情。

虚拟机的性能、稳定性

目前在Aliyun已经有数以万计的用户在运行任务,很多公司一开始就在Aliyun上创业的。Aliyun的ECS都有性能、稳定性保障的。业界也有很多的评测报告,可以看下。如果实在担心,您可以亲自测试下。

不建议用户购买ECS搭建Hadoop,应该直接使用E-MapReduce

我们从几个方面考虑,

  • E-MapReduce有一套管控平台,目前页面有启动集群、增加节点、任务编排、任务失败报警等功能。后续会有更多的功能呈现。
  • 帮助您运维Hadoop集群,出现任何问题,我们都可以帮助您解决。
  • 有灵活的计费方案,例如:按照小时计划,也可以包年包月。
  • 跟Aliyun其它的产品高度集成起来,我们提供lib,EMR可以处理OSS(分布式对象存储)、RDS(数据库)中的数据,消费LogService、ONS等消息中间件的消息。
  • 针对大数据场景有特别的优化,如:带宽等。
  • 阿里HADOOP发行版,有众多性能上的优化。
  • 输出阿里的技术能力,专家团队支持,如:HADOOP技术团队、JVM技术团队、Hbase技术团队、JStorm技术团队等,您遇到的几乎任何问题,我们应该已经遇到过了。
  • 有现成的一些解决方案,知识库,会提供给您参考及学习。

我的业务比较复杂,上云很麻烦

一些客户先前在线下有Hadoop集群,上云看起来不是那么简单。比如:数据怎么上云,怎么做到无缝迁移不影响业务。您可以联系我们,我们会有专业的同学与您一起做解决方案,直到您的业务上云、稳定运行为止。

如果您有任何的问题,您可以联系我们。

相关实践学习
数据湖构建DLF快速入门
本教程通过使?数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
9月前
|
分布式计算 Hadoop 大数据
一口气说完MR、Storm、Spark、SparkStreaming和Flink
一口气说完MR、Storm、Spark、SparkStreaming和Flink
|
15天前
|
SQL 分布式计算 数据处理
Spark的生态系统概览:Spark SQL、Spark Streaming
Spark的生态系统概览:Spark SQL、Spark Streaming
|
6月前
|
SQL 分布式计算 大数据
Paimon与Spark的集成(一)
Spark 已经成为了大数据领域软件栈中必不可少的组成部分。作为数据湖领域新起的 Paimon,与Spark的深度、全面的集成也将为 Paimon 在准实时场景、离线湖仓场景提供了便利。本文主要介绍一些在 Paimon 新版本中基于 Spark 计算引擎支持的主要功能。
271 0
|
SQL 机器学习/深度学习 分布式计算
【大数据架构】Apache Flink和Apache Spark—比较指南
【大数据架构】Apache Flink和Apache Spark—比较指南
【大数据架构】Apache Flink和Apache Spark—比较指南
|
存储 分布式计算 Scala
Spark快速入门-3-Spark的算子总结
Transformation 变换/转换算子:这类算子操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。这种变换并不触发提交作业,完成作业中间过程处理。 Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业,并将数据输出 Spark 系统。
|
分布式计算 分布式数据库 Scala
Spark查询Hbase小案例
写作目的 1)正好有些Spark连接HBase的需求,当个笔记本,到时候自己在写的时候,可以看 2)根据rowkey查询其实我还是查询了好久才找到,所以整理了一下 3)好久没发博客了,水一篇
183 0
Spark查询Hbase小案例
|
SQL 分布式计算 Apache
|
消息中间件 分布式计算 Java
Flink与Spark的区别
Flink与Spark的区别
2485 0
|
SQL 分布式计算 关系型数据库
|
机器学习/深度学习 存储 SQL
重要 | Spark和MapReduce的对比
【前言:笔者将分两篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer】
重要 | Spark和MapReduce的对比
http://www.vxiaotou.com