YARN Failover

Hadoop

Hadoop教程 Hadoop - 简介 Hadoop HDFS HDFS 写文件 HDFS 读文件 HDFS 可靠性 HDFS 命令工具 Hadoop YARN YARN ResourceManager YARN NodeManager YARN ApplicationMaster YARN Container YARN Failover Hadoop MapReduce MapReduce 读取数据 MapReduce Mapper MapReduce Shuffle MapReduce 编程 Hadoop IO Hadoop 测试 Hadoop 安装 Hadoop配置 Hadoop 监控

YARN Failover

失败类型

程序问题
进程崩溃
硬&#x#x4EF6;问题

失败处理

任务失败

运行时异常或者JVM退出都会报告给ApplicationMaster
通过心跳来检查挂住的任务(timeout)，会检查多次（可配置）才判断该任务是否失效
一个作业的任务失败率超过配置，则认为该作业失败
失败的任务或作业都会有ApplicationMaster重新运行

ApplicationMaster失败

ApplicationMaster定时发送心跳信号到ResourceManager，通常一旦ApplicationMaster失败，则认为失败，但也可以通过配置多次后才失败
一&##x65E6;ApplicationMaster失败，ResourceManager会启动一个新的ApplicationMaster
新的ApplicationMaster负责恢复之前错误的ApplicationMaster的状态(yarn.app.mapreduce.am.job.recovery.enable=true)，这一步是通过将应用运行状态保存到共享的存储上来实现的，ResourceManager不会负责任务状态的保存和恢复
Client也会定时向ApplicationMaster查询进度和状态，一旦发现其失败，则向ResouceManager询问新的ApplicationMaster

NodeManager失败

NodeManager定时发送心跳到ResourceManager，如果超过一段时间没有收到心跳消息，ResourceManager就会将其移除
任何运行在该NodeManager上的#x7684;任务和ApplicationMaster都会在其他NodeManager上进行恢复
如果某个NodeManager失败的次数太多，ApplicationMaster会将其加入黑名单（ResourceManager没有），任务调度时不在其上运行任务

ResourceManager失败

通过checkpoint机制，定时将其状态保存到磁盘，然后失败的时候，重新运行
通过zookeeper同步状态和实现透明的HA

可以看出，一般的错误处理都是由当前模块的父模块进行监控（心跳）和恢复。而最顶端的模块则通过定时保存、同步状态和zookeeper来ֹ#x5B9E;现HA

上一篇:YARN Container

下一篇:Hadoop MapReduce

我要发贴

站内导航

HTML5 | CSS3 | JavaScrip | HTML DOM | JSON | PHP7 | XML | XML DOM | XSLT | DTD | XML Schema | 开发手册 | php手册 | 破解软件 | 技术分享 | Blog

联系我们

邮箱 626512443@qq.com
电话 18611320371(微信)
QQ群 235681453

友情链接

百郎科技 | Linux命令大全 | 厦门SEO | 探趣吧 | 北京医院跑腿 | 小熊HTTP代理 | IPFoxy全球代理IP | 天启http | novproxy

Copyright © 2015-2024

备案号：京ICP备15003423号-3