《海量数据处理与大数据技术实战》来咯，从实战出发，解读大数据技术！-阿里云开发者社区

《海量数据处理与大数据技术实战》来咯，从实战出发，解读大数据技术！

2021-12-03 2271

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 随着大数据技术和云计算技术的发展，Hadoop 大数据生态系统中的各项技术越来越流行，已然成为大数据开发领域的事实标准。特别是 Hadoop 大数据生态系统中各项技术的开源特性，使得其核心技术和各种解决方案得到了广泛的应用。程序员要想进入大数据开发领域，除了需要有扎实的编程基础外，还要融会贯通各种大数据框架，最好还要熟悉大数据领域中有典型意义和实用价值的各类开发案例。这样才能在竞争日益激烈的大数据市场环境中具备较强的职场竞争力。

目前，图书市场上关于大数据技术的图书不少，但是，真正从实战应用出发，同时深入剖析大数据离线批处理计算领域和在线实时计算领域常用的大数据框架技术原理、编程案例和框架整合的图书却很少。本书以实战案例为主旨，通过详细介绍大数据开发中常用的多种技术框架和其对应的大量开发案例，并在大数据处理实战案例篇章，整合多种大数据技术框架实现基于海量日志数据的分析统计系统(涵盖大数据离线批处理计算技术和大数据在线实时计算技术)，让读者更加全面、深入、透彻地理解大数据开发领域中各种热门技术和主流框架的使用，提高各种大数据框架的整合能力，进而提高大数据开发水平和项目实战能力。

点击下载

《海量数据处理与大数据技术实战》

冰河大数据封面.jpg

精彩内容抢先看

第一篇大数据基础篇(第 1~3 章)

本篇主要对大数据的基础知识、Hadoop和 Storm的基础知识和基本技术以及应用现状和发展趋势进行了简单的介绍。

第二篇大数据离线批处理技术篇(第 4~11 章)

本篇主要介绍的是大数据离线批处理计算领域所涉及的技术和框架，包括:Hadoop、 Hive 和 Sqoop。分别介绍了每种框架的基本原理和使用案例，包括:安装 CentOS 6.8 虚拟机环境，搭建每种框架的运行环境，分别以命令行和API 方式实现 HDFS 的数据操作，以 Java 语言和 Python 语言实现多个 Hadoop MapReduce 开发案例，使用 HiveQL 操作 Hive 中的数据库和数据表以及自定义 Hive 函数，使用 Sqoop 实现 HDFS 与 MySQL之间的数据导入导出。

第三篇大数据在线实时处理技术篇(第 12~17 章)

本篇主要介绍了大数据在线实时计算领域所涉及的技术和框架，包括:Flume、Kafka 和 Storm。分别介绍了每种框架的基本原理和使用案例，包括:搭建每种框架的运行环境， Flume 基于内存、文件和目录的 Channel，Flume 写数据到 HDFS和 Kafka，Flume 采集 Nginx 日志到 Hive、Flume采集 Nginx 日志到多个目标系统，自定义 Flume 的Agent，Flume 监控，分别使用 Java 语言和 Python 语言实现 Kafka 客户端编程，使用 Storm 实现单词计数、追加字符串、聚合多种数据流、实现分组聚合和实现事务处理，实现Storm 监控等。

第四篇大数据处理实战案例篇(第 18~22 章)

本篇主要详解介绍了基于海量日志数据的分析统计系统的开发过程，介绍了系统的项目背景。在实现上将系统分为离线批处理计算子系统和在线实时计算子系统，分别介绍了两个子系统的需求、架构设计、功能设计、存储选型、技术选型、环境搭建和具体的系统实现过程。

复制该链接到浏览器完成下载或分享：

/topic/download?id=8205

《海量数据处理与大数据技术实战》是大数据开发领域中以实战案例为主旨的经典之作。本书全面阐述了大数据开发领域中常用的技术原理和框架，以及框架对应的实战案例。全书共分为四大篇章:大数据基础篇、大数据离线批处理技术篇、大数据在线实时处理技术篇、大数据处理实战案例篇。大数据基础篇主要介绍了大数据的基础知识、Hadoop 和 Storm 的基础知识以及发展现状和应用前景;大数据离线批处理技术篇主要介绍了 Hadoop、Hive 和 Sqoop 的基本原理、环境搭建和项目案例;大数据在线实时处理技术篇主要介绍了 Flume、Kafka、Storm 的基本原理、环境搭建和项目案例;大数据处理实战案例篇详细介绍了基于海量日志数据的分析统计系统的实现过程，期间对各种大数据框架进行了整合，此案例项目稍加修改，便可应用于实际开发项目中。

本书内容由浅入深、从原理到实战，适合在校大学生、专业培训机构的学员、想转行从事大数据开发的人员、需要系统学习大数据技术的开发人员、大数据从业者、大数据运维工程师、希望提高大数据开发实战水平的人员、大数据开发经理、大数据架构师、需要时常查阅大数据常用框架技术和开发案例的人员阅读。

阿里云开发者藏经阁

汇聚阿里巴巴技术实践精华，涵盖云原生、物联网、大数据、AI等技术领域，深度分享阿里工程师实战经验，顶级技术内容一手掌握。点击进入藏经阁，畅游技术海洋。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《海量数据处理与大数据技术实战》来咯，从实战出发，解读大数据技术！

开发者学习资源库

热门文章

最新文章

相关课程

相关电子书

相关实验场景