Hadoop 入门笔记—核心组件 HDFS

2021年11月21日 阅读数:13
这篇文章主要向大家介绍Hadoop 入门笔记—核心组件 HDFS,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

做者:幻好服务器

来源:恒生LIGHT云社区架构

基本概念

HDFS (Hadoop Distributed File System) 是 Hadoop 下的分布式文件系统,具备高容错、高吞吐量等特性,能够部署在低成本的硬件上。框架

首先,经过名字就能很清楚的明白 HDFS 在 Hadoop 中是应该文件存储的组件。分布式

HDFS 的设计之初,主要是考虑到在数据量的不断增加的环境下,因为受制单机资源有限,为了保证系统可以提供高可用、高可靠性以及高扩展等要求,因而经过分布式架构,以达到响应的需求。oop

hdfsarchitecture-1636878627908.png

核心架构

HDFS 的主要架构分为三个部分:NameNode(nn)DataNode(dn)Secondary NameNode(2nn)性能

NameNode(nn)大数据

  • 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每一个文件的块列表和块所在的DataNode等。

能够理解系统的文件资源管理器,方便咱们查询文件存储位置以及相关属性信息。url

DataNode(dn).net

  • 负责提供来自文件系统客户端的读写请求,执行块的建立,删除等操做。

能够理解为经过NameNode是存储一些文件基本属性信息方便咱们查询,而DataNode则是存储文件数据的。设计

Secondary NameNode(2nn)

  • 用来监控HDFS 状态的辅助后台程序,每隔一段时间获取HDFS 元数据的快照

Secondary NameNode能够理解为NameNode的备份,若是NameNode都挂了,Secondary NameNode的备份还能继续提供服务

一个 HDFS 集群由一个 NameNode 和一些 DataNode 组成, NameNode 至关于控制中心,负责管理文件系统的名字空间、数据块与数据节点的映射以及数据节点的调度。 DataNode 则负责处理实际的客户端读写的请求,存储数据。

运行原理

写数据

  • 首先客户端向NameNode 发起RPC 请求建立文件;
  • NameNode 会校验用户权限并查询文件是否存在,最终建立一条元数据信息并返回存储的DataNode 信息给客户端;
  • 客户端开始向DataNode 上传数据,DataNode 会对数据进行切分并完成副本的建立;
  • 而后DataNode 会将数据复制到其余的节点上;
  • 直到全部的节点完成后,返回上传成功,关闭链接。

读数据

  • 首先客户端经过RPC 调用NameNode 的查询方法;
  • NameNode 会校验用户权限并查询文件是否存在,并将文件保存在DataNode 的节点返回;
  • 客户端向返回的DataNode 发起读取的请求,获取数据;
  • 当全部的数据读取完成后,资源关闭。

优缺点

优势:

  • 可以处理较大文件,如MB到TB。
  • 可以部署在廉价服务器上,对性能要求不高,具备较高容错性。
  • 可以对已存储内容进行追加存储内容

缺点:

  • 访问延迟较高,不适合应用在低延迟场景
  • 不适合大量较小文件存储,会耗费较多资源。

总结

HDFS 的设计保证了系统的高可用、高扩展等要求,虽然也有弊端,可是咱们应该根据切实的业务需求,选择最合适的技术方案。

HDFS 经过其良好的跨平台移植性,使得其余大数据计算框架都将其做为数据持久化存储的首选方案。