数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoFS 缓存加速】第十四讲


主题:指定表和分区来预先缓存,查询分析更高效


讲师:抚月,阿里巴巴计算平台事业部 开源大数据平台 技术专家


内容框架:

  • 背景介绍
  • 功能介绍
  • 使用方法
  • 实操演示


直播回放链接:(14讲)

/live/246996

一、背景介绍

传统集群架构:

?存储计算一体

?存储量与计算量无法始终匹配

?存储无法水平扩展

image.png

存算分离架构:

?计算资源动态伸缩

?海量的存储空间

?稳定可靠的存储服务

?计算节点剩余的磁盘、内存资源可以用于缓存加速

image.png

指定表和分区来预先缓存:

TPC-DS生成的标准数仓数据:

维表:例item、store  经常访问,可预先缓存

事实表:采用时间分区

image.png

二、功能介绍

JindoFS缓存模式架构图:

image.png

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和OSS上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统,从而实现对后端存储实现缓存加速


     计算服务通过Jindo SDK访问数据,Jindo SDK从Jindo Namespace Service查询缓存位置信息,然后向集群中的Jindo Storage Service读取缓存数据,如果命中缓存直接返回;如果没有命中缓存,则从OSS读取数据,并将缓存写入Jindo Storage Service,供下次使用。


三、使用方法

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件conf/bigboot.cfg

     image.png

  • 修改 sbin/nodes,配置所有storageservice的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安装 jar包:下载最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Hadoop 节点安装。

cp ./jindofs-sdk-*.jar /share/hadoop/hdfs/lib/jindofs-sdk.jar

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到Hadoop的core-site.xml中
  • OSSAccess KeyAccess Key SecretEndpoint等预先配置在Hadoopcore-site.xml中。

     image.png          

     image.png      

指定表和分区来预先缓存

   cache命令和uncache命令:

   image.png

     image.png

四、实操演示


?点击回放链接,直接观看第14讲视频回放,获取讲师实例讲解:

/live/246996





?Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

                         69c0a02cc68742fca5d49d92413dc67a.png

相关实践学习
数据湖构建DLF快速入门
本教程通过使?数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
存储 SQL 缓存
MySQL面试常见之数据表分区设计& 查询缓存&字符集修改&join&varchar
MySQL面试常见之数据表分区设计& 查询缓存&字符集修改&join&varchar
179 0
MySQL面试常见之数据表分区设计& 查询缓存&字符集修改&join&varchar
|
SQL 分布式计算 关系型数据库
Hive 数仓迁移 JindoFS/OSS 数据湖最佳实践
Hive?数仓是大多数迁移客户都会遇到的场景。在迁移过程中,不建议同时在新集群进行业务升级(比如从?Hive?on?MR?迁移到?Hive?on?Tez?或?Spark?SQL等),这些业务升级可以在迁移完成后进行。1.?元数据同步Hive?元数据是对于?Hive?表来说非常关键,除了表结构信息,里面还记录着?Hive?表与底层文件系统的关联关系,许多上层服务都依赖?Hive?元数据提供服务。a.
583 0
|
存储 缓存 分布式计算
指定表和分区来预先缓存,查询分析更高效 | 学习笔记
快速学习指定表和分区来预先缓存,查询分析更高效。
137 0
|
存储 SQL 人工智能
【数据湖 JindoFS+OSS 实操干货36讲】正式上线!
为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】正式上线。从五大版块入手,带你玩转数据湖!
【数据湖 JindoFS+OSS 实操干货36讲】正式上线!
|
SQL 存储 分布式计算
数据湖实操讲解【 JindoTable 计算加速】第二十二讲:对 Hive 数仓表进行高效小文件合并
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
数据湖实操讲解【 JindoTable 计算加速】第二十二讲:对 Hive 数仓表进行高效小文件合并
|
SQL 存储 缓存
数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计
|
SQL 存储 缓存
数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速
|
存储 SQL 分布式计算
数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速
|
5天前
|
消息中间件 缓存 NoSQL
Redis经典问题:缓存雪崩
本文介绍了Redis缓存雪崩问题及其解决方案。缓存雪崩是指大量缓存同一时间失效,导致请求涌入数据库,可能造成系统崩溃。解决方法包括:1) 使用Redis主从复制和哨兵机制提高高可用性;2) 结合本地ehcache缓存和Hystrix限流降级策略;3) 设置随机过期时间避免同一时刻大量缓存失效;4) 使用缓存标记策略,在标记失效时更新数据缓存;5) 实施多级缓存策略,如一级缓存失效时由二级缓存更新;6) 通过第三方插件如RocketMQ自动更新缓存。这些策略有助于保障系统的稳定运行。
286 1
|
21小时前
|
缓存 NoSQL Redis
http://www.vxiaotou.com