Java大数据开发(三)Hadoop(11)-NameNode和SecondaryNameNode

2021年11月21日 阅读数:3
这篇文章主要向大家介绍Java大数据开发(三)Hadoop(11)-NameNode和SecondaryNameNode,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
导读:HDFS主要是由两部分组成,NameNode和DataNode,掌握这两节的知识,不论是对于开发仍是理解HDFS都是很是有帮助的。

NN和2NN工做机制java


思考:NameNode中的元数据是存储在哪里的?node


若是咱们假设元数据存储在NameNode节点的磁盘中,由于常常须要进行随机访问,还有响应客户请求,那么效率确定很低。所以,元数据须要放在内存中。但若是只存在内存中,一旦断电,元数据就会丢失,整个集群就不能工做了。所以就产生在磁盘中备份元数据的FsImage中。微信


这样又会有新的问题出现,当内存中的元数据更新时,若是同时更新FsImage,就会致使效率太低,但若是不更新,又会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。所以,引入Edits文件(这个文件只进行追加操做,效率很高)。每当元数据有更新或者添加元数据时,先把日志记录到Edits中,而后修改内存中的元数据。这样,一旦NameNode节点断电,能够经过FsImage和Edits的合并,合成元数据。学习


可是,若是长时间添加数据到Edits中,又会致使该文件数据过大,从而效率下降,而且一旦断电,恢复元数据须要的时间过长。所以,须要按期进行FsImage和Edits的合并,若是这个操做由NameNode节点完成,又会效率太低。因而乎第二主角登场了,引入一个新的节点SecondaryNamenode,他的做用就是专门用于FsImage和Edits的合并。大数据


工做机制如图所示
spa



第一阶段:namenode启动.net


(1)第一次启动namenode格式化后(format),建立fsimage镜像和edits编辑日志文件。若是不是第一次启动,会直接加载编辑日志和镜像文件到内存。日志


(2)客户端请求元数据进行增删改。code


(3)namenode对操做记录日志,更新滚动日志。orm


(4)而后,namenode对内存的数据进行增删改


第二阶段:Secondary NameNode工做


(1)Secondary NameNode询问namenode是否须要checkpoint,就是是否须要检查。直接带回namenode是否检查结果。


(2)Secondary NameNode请求执行checkpoint,也就是进行检查。


(3)namenode滚动正在写的edits编辑日志


(4)将滚动前的edits编辑日志和fsimage镜像文件拷贝到Secondary NameNode节点


(5)Secondary NameNode加载编辑日志和镜像文件到内存,而且进行合并


(6)生成新的镜像文件fsimage.chkpoint文件


(7)拷贝fsimage.chkpoint到namenode节点


(8)namenode将fsimage.chkpoint从新命名成fsimage,替换了原来的镜像


NN和2NN工做机制详解

Fsimage:NameNode内存中元数据序列化后造成的文件。

Edits:记录客户端更新元数据信息的每一步操做(可经过Edits运算出元数据)。

NameNode启动时,先滚动Edits并生成一个空的edits.inprogress,而后加载Edits和Fsimage到内存中,此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求,这些请求的操做首先会被记录到edits.inprogress中(查询元数据的操做不会被记录在Edits中,由于查询操做不会更改元数据信息),若是此时NameNode挂掉,重启后会从Edits中读取元数据的信息。而后,NameNode会在内存中执行元数据的增删改的操做。

因为Edits中记录的操做会愈来愈多,Edits文件会愈来愈大,致使NameNode在启动加载Edits时会很慢,因此须要对Edits和Fsimage进行合并(所谓合并,就是将Edits和Fsimage加载到内存中,照着Edits中的操做一步步执行,最终造成新的Fsimage)。SecondaryNameNode的做用就是帮助NameNode进行Edits和Fsimage的合并工做。

SecondaryNameNode首先会询问NameNode是否须要CheckPoint(触发CheckPoint须要知足两个条件中的任意一个,定时时间到和Edits中数据写满了)。直接带回NameNode是否检查结果。

SecondaryNameNode执行CheckPoint操做,首先会让NameNode滚动Edits并生成一个空的edits.inprogress,滚动Edits的目的是给Edits打个标记,之后全部新的操做都写入edits.inprogress,其余未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地,而后将拷贝的Edits和Fsimage加载到内存中进行合并,生成fsimage.chkpoint,而后将fsimage.chkpoint拷贝给NameNode,重命名为Fsimage后替换掉原来的Fsimage。

NameNode在启动时就只须要加载以前未合并的Edits和Fsimage便可,由于合并过的Edits中的元数据信息已经被记录在Fsimage中。

chkpoint检查时间参数设置


(1)一般状况下,SecondaryNameNode每隔一小时执行一次。

配置文件:hdfs-default.xml


<property>  <name>dfs.namenode.checkpoint.period</name>  <value>3600</value></property>


(2)一分钟检查一次操做次数,当操做次数达到1百万时,SecondaryNameNode执行一次。


<property>  <name>dfs.namenode.checkpoint.txns</name>  <value>1000000</value><description>操做动做次数</description></property>
<property> <name>dfs.namenode.checkpoint.check.period</name> <value>60</value><description> 1分钟检查一次操做次数</description></property>


以上就是今天咱们分享的关于NN和2NN的工做机制,内容上来讲都是偏理解类的知识,我相信,对于学习过Java的同窗,应该仍是很好理解的。


关注「跟我一块儿学大数据」

跟我一块儿学大数据

本文分享自微信公众号 - 跟我一块儿学大数据(java_big_data)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。