最终整体回顾(代码-离线计算)|学习笔记

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 快速学习最终整体回顾(代码-离线计算)

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段最终整体回顾(代码-离线计算)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:/learning/course/675/detail/11745


最终整体回顾(代码-离线计算)


内容简介

一、数据备份

二、数据恢复

三、离线数据支撑

四、离线计算


一、数据备份

需求

为反之 redis 中的数据丢失,所以将数据备份于 HDFS

把数据再录到 redis 的同时,收集过来数据,然后把它写到 HDFS 上面,就备份好了。


二、数据恢复

需求

数据丢失需要恢复

代码:

黑名单 Redis 数据恢复

BlackListToRedis.blackListDataToRedis(jedis,sc,sqlContext)

在这个界面,如果需要恢复,那我们就去把这个值逻辑词里面这个值改成 yes 就可以了,然后,它就自动就恢复过来了。这个是恢复的代码。


三、离线数据支撑

从 Kafka 当中读取过来预处理后的数据,拿过来直接写到HDFS里面,这个就是写入到 HDFS 的过程。

然后再拿了一个预处理后的数据写到 HDFS,写完以后,我们又做了一个监控,而这个监控指的是爬虫识别的监控,而这个爬虫识别的监控与数据预处理的监控,他们的这个逻辑思想和和这个代码基本上是一致的,只有很小一部分不一样。


四、离线计算

因为一开始的数据用不了,所以要先进行处理

处理完以后,我们去进行离线分析,先把数据分为两批数据,一个是爬虫这个数据预处理后的结果,还有一个是计算出来的爬虫数据,这两个爬虫数据让他们俩去进行碰撞碰撞,然后筛选出一些纯爬虫数据

然后再往后过滤字段啊,可能有二十几个字的,就用6个就够了,写了两个自定义函数定义函数。

根据把前面写的这两个字对应函数用起来,拿到以后利用这6个字段去进行离线报表的计算,这里面国内查询的国际查询的转化率,这几个转化率我们带着一个一个走了一遍,包括这里面先过滤出,哪一个操作第1步先过滤从哪个操作第2步用谁除以谁,这边写的清清楚楚。

注意:

1代表国际数据,0代表国内数据。

这两个点的变化。第2个国际查询和国内查询是一样的,一样的操作就换一下,上面是国内,这个是国际,换一下这个值就可以。

国内航班选择、国际航班选择爬虫转化率、正常用户转化率全部用合理的后面的代码,离线计算就统计完了。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
5天前
|
分布式计算 关系型数据库 MySQL
DataWork数据处理问题之调整并发数量如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
46 4
|
7月前
|
编解码 数据可视化 Java
3D模型拆分与合并展示,IVX真的可以简单实现
iVX 平台的优势和特点,包括逻辑完备性、操作流畅性、面向对象设计方法、可独立作为编程语言等方面的优势,下面来详细的介绍介绍。
76 0
|
5天前
|
分布式计算 并行计算 算法
图计算中的性能优化有哪些方法?请举例说明。
图计算中的性能优化有哪些方法?请举例说明。
20 0
|
5天前
|
Java 数据处理 Apache
流计算中的窗口操作是什么?请解释其作用和使用场景。
流计算中的窗口操作是什么?请解释其作用和使用场景。
23 0
|
5月前
|
Cloud Native 前端开发
【性能优化上】第三方组织结构同步优化一,分状态,分步骤的设计,你 get 到了吗?
【性能优化上】第三方组织结构同步优化一,分状态,分步骤的设计,你 get 到了吗?
|
9月前
|
数据采集 缓存 数据挖掘
GATK4标准分析流程 丨如何选择合适的线程和内存大小?数据预处理方法与注意事项
GATK4标准分析流程 丨如何选择合适的线程和内存大小?数据预处理方法与注意事项
|
9月前
|
存储 数据可视化 数据挖掘
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
|
9月前
|
机器学习/深度学习 算法 计算机视觉
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
72 0
|
存储 监控 Oracle
定位任意时刻性能问题,持续性能分析实践解析
定位任意时刻性能问题,持续性能分析实践解析
定位任意时刻性能问题,持续性能分析实践解析
|
缓存 Cloud Native 架构师
不可变构建及如何提升构建效率(二)|学习笔记
快速学习不可变构建及如何提升构建效率(二)
78 0
http://www.vxiaotou.com