HIVE MapJoin异常问题处理总结-阿里云开发者社区

HIVE MapJoin异常问题处理总结

2016-11-16 14594

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

2000元阿里云代金券免费领取，2核4G云服务器仅664元/3年，新老用户都有优惠，立即抢购>>>

阿里云采购季（云主机223元/3年）活动入口：请点击进入>>>，

阿里云学生服务器（9.5元/月）购买入口：请点击进入>>>，

问题描述

在跑hive作业的时候，偶尔会遇到下面的异常 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 。通过查看日志，你可以看到这是map join的问题，会看到Starting to launch local task to process map join; maximum memory = xxx，Execution failed with exit status: 3 等等这样的日志。在网上搜索也可以看到一些问题的解释，例如 stackoverflow上就有一个 http://stackoverflow.com/questions/22977790/hive-query-execution-error-return-code-3-from-mapredlocaltask

搜索结果建议的解决方案

1. set hive.auto.convert.join = false; 关闭mapjion
1. 调小hive.smalltable.filesize，默认是25000000（在2.0.0版本中）
1. hive.mapjoin.localtask.max.memory.usage 调大到0.999
1. set hive.ignore.mapjoin.hint=false; 关闭忽略mapjoin的hints

原理及问题分析

MapJoin原理可以参见这里，讲的比较清楚。出现问题的地方就是MapredLocalTask这里，在客户端本地启动一个Driver进程，扫描小表的数据，将其转换成一个HashTable的数据结构，这个过程中在做内存检查，即checkMemoryStatus的时候，抛出了异常。我们看一下这里的检查点

    double percentage = (double) usedMemory / (double) maxHeapSize;
    String msg = Utilities.now() + "\tProcessing rows:\t" + numRows + "\tHashtable size:\t"
        + tableContainerSize + "\tMemory usage:\t" + usedMemory + "\tpercentage:\t" + percentageNumberFormat.format(percentage);
    console.printInfo(msg);
    if(percentage > maxMemoryUsage) {
      throw new MapJoinMemoryExhaustionException(msg);
    }

跟当前进程的MaxHeap有关，跟当前进程的UsedMemory有关，跟参数maxMemoryUsage有关（hive.mapjoin.localtask.max.memory.usage）,通过分析比较我们可以发现，上述的方案1和4，直接关闭mapjion，避免启动MapredLocalTask，就不会出现这样的check，进而不会出现问题；上述的方案2，减小join表的大小，进而减小UsedMemory，也可以解决这个问题；上面的方案3，调大maxMemoryUsage，使内存充分利用，也可以解决这个问题。我们注意到maxHeapSize 这个参数，没有针对性的解决方案

增加的一种解决方案，调大MapredLocalTask JVM启动参数

解决方案还是需要考虑不影响性能。
调大MapredLocalTask 的JVM启动参数，进而可以增加maxHeapSize，同样也可以解决这个问题。如何去调大这个参数呢？通过查看MapredLocalTask代码我们可以看到

      jarCmd = hiveJar + " " + ExecDriver.class.getName();
      String hiveConfArgs = ExecDriver.generateCmdLine(conf, ctx);
      String cmdLine = hadoopExec + " jar " + jarCmd + " -localtask -plan " + planPath.toString()
          + " " + isSilent + " " + hiveConfArgs;
      ...
      Map<String, String> variables = new HashMap<String, String>(System.getenv());
      ...
      // Run ExecDriver in another JVM
      executor = Runtime.getRuntime().exec(cmdLine, env, new File(workDir));

启动新的ExecDriver，使用的是hadoop jar，系统环境参数继承了父进程的系统环境变量（里面逻辑有一些参数会覆盖）。而hadoop jar 启动java进程，内存参数会受哪些地方影响呢？如果没有设置，受hadoop自身一些脚本配置的影响；HADOOP_HEAPSIZE，如果设置了该变量，JVM参数就是-Xmx${HADOOP_HEAPSIZE}m ；如果不设置，就会受/usr/lib/hadoop-current/libexec/hadoop-config.sh里面配置的JAVA_HEAP_MAX=-Xmx1000m 。有没有印象？你使用hadoop jar启动的一些进程参数都是-Xmx1000m, 如果注意观察，ExecDriver这个进程也是这个参数。知道这个参数之后，可以在/usr/lib/hadoop-current/libexec/hadoop-config.sh 这里将参数调大，例如设置JAVA_HEAP_MAX=-Xmx1408m 可以解决问题。

研究与思考

通过查看checkMemoryStatus 的代码，我们可以看到，这个比较的逻辑不太合适，当前内存使用达到了一定阈值，并不代表内存不够用，因为还有gc存在啊，如果gc之后还是超过了这个阈值，确实需要抛出异常。基于这样的分析，在HIVE JIRA上提了一个issue 并有相应的一些想法和patch。如果感兴趣，欢迎讨论交流，请戳HIVE-15221

HIVE MapJoin异常问题处理总结

问题描述

搜索结果建议的解决方案

原理及问题分析

增加的一种解决方案，调大MapredLocalTask JVM启动参数

研究与思考

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书