HIVE的搜索结果_文章-阿里云开发者社区

xin在这

|

1天前

|

博文

|

实时计算 Flink版操作报错合集之使用 Event Time Temporal Join 关联多个 HBase 后，Kafka 数据的某个字段变为 null 是什么原因导致的

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

# 实时计算 Flink版 # 云数据库HBase版 # 云消息队列 Kafka 版 # SQL # 消息中间件 # Kafka # HIVE # 流计算

xin在这

|

1天前

|

博文

|

来自：大数据与机器学习

实时计算 Flink版操作报错合集之遇到报错：“Lost leadership”和“Chk failure如何解决

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

# 实时计算 Flink版 # 微服务引擎 # 云消息队列 Kafka 版 # SQL # 消息中间件 # Kafka # HIVE # 流计算

cuicuicuic

|

3天前

|

博文

|

来自：大数据与机器学习

实时计算 Flink版产品使用合集之将OceanBase的CDC数据导入到Flink SQL的任务的步骤是什么

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

# 实时计算 Flink版 # SQL # 数据处理 # HIVE # 流计算 # OceanBase

听风de歌

|

5天前

|

博文

Hadoop数据清洗和转换

【5月更文挑战第9天】Hadoop数据清洗和转换

# 数据采集 # SQL # 分布式计算 # Hadoop # HIVE

阿里云瑶池数据库SelectDB

|

5天前

|

博文

|

来自：数据库

从离线到实时：无锡锡商银行基于 Apache Doris 的数据仓库演进实践

# 云消息队列 Kafka 版 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 实时计算 Flink版 # SQL # 大数据 # BI # Apache # HIVE

周盛欢

|

5天前

|

博文

Kylin使用心得

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # 数据挖掘 # BI # HIVE

ZShiJ

|

5天前

|

博文

Ubuntu上安装MySQL以及hive

# 云数据库 RDS MySQL 版 # SQL # 分布式计算 # 关系型数据库 # MySQL # HIVE

Byyyi

|

5天前

|

博文

|

来自：大数据与机器学习

Hive 拉链表详解及实例

拉链表是一种数据仓库技术，用于处理持续增长且存在时间范围内的重复数据，以节省空间。它在Hive中通过列式存储ORC实现，适用于大规模数据场景，尤其当数据在有限时间内有多种状态变化。配置涉及事务管理和表合并选项。示例中展示了如何从原始订单表创建拉链表，通过聚合操作和动态分区减少数据冗余。增量数据可通过追加到原始表然后更新拉链表来处理。提供的Java代码用于生成模拟的订单增量数据，以演示拉链表的工作流程。

# SQL # 存储 # Java # HIVE

Byyyi

|

5天前

|

博文

|

来自：大数据与机器学习

Hive 优化总结

Hive优化主要涉及HDFS和MapReduce的使用。问题包括数据倾斜、操作过多和不当使用。识别倾斜可通过检查分区文件大小或执行聚合抽样。解决方案包括整体优化模型设计，如星型、雪花模型，合理分区和分桶，以及压缩。内存管理需调整mapred和yarn参数。倾斜数据处理通过选择均衡连接键、使用map join和combiner。控制Mapper和Reducer数量以避免小文件和资源浪费。减少数据规模可调整存储格式和压缩，动态或静态分区管理，以及优化CBO和执行引擎设置。其他策略包括JVM重用、本地化运算和LLAP缓存。

# SQL # 分布式计算 # 资源调度 # Java # HIVE

Byyyi

|

5天前

|

博文

|

来自：大数据与机器学习

Hive 行列转换

使用`lateral view + explode`或`inline`可将列转换为行，实现数据降维。例如，`explode(array|map)`用于单列转多行，`inline(array_struct)`将结构体数组拆分成多行。同样，通过条件聚合可实现行转列，常用于多行数据聚合到单行中，如示例所示的按月统计订单金额。

# SQL # HIVE