hadoop集群是什么意思(hadoop集群和高可用的区别)

Hadoop是Apache的开源框架，用于存储过程和分析大量数据。Hadoop是用Java编写的，不是OLAP（在线分析处理）。它用于批处理/脱机处理.Facebook，Yahoo，Google，Twitter，意思LinkedI区别n等使用它。而且，仅通过在集群中添加节点就可以扩大规模。

Hadoop的模块

HDFS： Hadoop分布式文件系统。Google发表了论文GFS，并在此基础上开发了HDFS。它指出文件将被分解为多个块，并存是什么储在分布式体系结构的节点中。
YARM：另一个资源协商器用于作业调度和管理集群。
Map Reduce：这是一个框架，可以帮助Java程序使用键值对对数据进行并行计算。Map任务会获取输入数据，并将其转换为可以在键值对中计算的数据集。Map任务的输出被reduce任务消耗，然后out of reducer给出所需的结果。
Hadoop Common：这些Java库用于启动Hadoop，并由其他Hadoop模块使用。

Hadoop架构

Hadoop体系结构是文件系统，MapReduce引擎和HDFS（Hadoop分布式文件系统）的软件包。MapReduce引擎可以是MapReduce / MR1或YARN / MR2。

Hadoop集群由一个主节点和多个从节点组成。主节点包括Job Tracker，Task Tracker，NameNode和DataNode，而从节点包括DataNode和TaskTracker。

Hadoop架构

H是什么adoop分布式文件系统

Hadoop分布式文件系统（HDFS）是Hadoop的分布式文件系统。它包含一个主/从体系结构。该体系结构由一个NameNode充当主角色，而多个DataNode充当一个Slave角色。

NameNode和DataNode都具有足够的能力在商用机器上运行。Java语言用于开发HDFS。因此，任何支持Java语言的机器都可以轻松运行NameNode和DataNode软件。

名称节点

它是HDFS群集中存在的单个主服务器。
由于它是一个单节点，因此可能成为单点故障的原因。
它通过执行诸如打开，重命名和关闭文件之类的操作来管理文件系统名称空间。
它简化了系统的体系结构。

数据节点

HDFS群集包含多个DataNode。
每个DataNode包含多个数据块。
这些数据块用于存储数据。
DataNode负责读取和写入来自文件系统客户端的请求。
它根据NameNode的指令执行块创建，删除和复制。

工作追踪器

Job Tracker的作用是从客户高可端接受MapReduce作业，并使用NameNode处理数据。
作为响应，NameNode将元数据提供给Job Tracker。

任务追踪器

它充当Job T和racker的从节点。
它从Job Tracker接收任务和代码，并将该代码应用于文件。此过程也可以称为映射器。

MapReduce图层

当客户端应用程序将MapReduce作业提交给Job Tracker时，MapReduce便存在了。作为响应，作业跟踪程序将请求发送到适当的任务跟踪程序。有时，TaskTracker失败或超时。在这种情况下，将重新安排该部分工作。

Hadoop的优势

快速：在HDFS中，数据分布在区别群集上并被映射，这有助于更快地进行检索。即使是用于处理数据的工具集群也经常位于同一服务器上，从而减少了处理时间。它能够在数分钟内处理数TB的用的数据，在数小时内处理Peta字节。
可扩意思展：只需在集群中添加节点即可扩展Hadoop集群。
具有成本效益： Hadoop是开放源代码，并使用商品硬件存储数据，因此与传统的关系数据库管理系统相比，它确实具有成本效益。
容错能力强： HDFS具有可以通过网络复制数据的属性，因此，如果一个节点出现故障或发生其他一些网络故障，那么Hadoop将获取另一份数据副本并使用它。通常，数据被复制三次，但是复制因子是可配置的。

Hadoop的历史

Hahadoopdoop由Doug Cutting和Mike Cafarella于2002年创立。其起源是Google出版的Google File System论文。高可

Hadoop的历史

让我们通过以下步骤关注Hadoop的历史：-

在2002年，Doug Cutting和Mike Cafarella开始致力于Apache Nutch这个项目。这是一个开放源代码的Web爬虫软件项目。
在研究Apache Nutch时，他们正在处理大数据。为了存储该数据，他们必须花费大量成本，这成为该项目的结果。这个问题成为Hadoop出现的重要原因之一。
Google在2003年推出了一种称为GFS（Google文件系统）的文件系统。它是专有的分布式文件系统，旨在提供对数据的有效访问。
2004年，Google发布了有关Map Reduce的白皮书。此技术简化了大型群集上的数据处理。
在2005年，Doug Cutting和Mike Cafarella引入了一种新的文件系统，称为NDFS（Nutch分布式文件系统）。该文件系统还包括Map reduce。
2006年，道格切特（Doug Cutting）退出了Google，并加入了雅虎。在Nutch项目的基础上，Dough Cutting引入了一个新项目Hadoop，该项目的文件系统称为HDFS（Hadoop分布式文件系统）。Hadoop于今年发布了第一个版本0.1.0。
道格切特（Doug Cutting）以儿子的玩具大象命名为Hadoop项目。
2007年，雅虎运行着两个由1000台计算机组成的集群。
在2008年，Hadoop成为最快的系统，可在209秒内对900节点集群上的1 TB数据进行排序。
2013年，Hadoop 2.2发布了。
在2017年，Hadoop 3.0发布了。和

年事件2003年谷歌发布了论文，谷歌文件系统（GFS）。20用的04年Google发布了有关Map Reduce的白皮书。2006年

引入了Hadoop。
Hadoop 0.1.0发布。
雅虎部署了300台计算机，今年将达到600台计算机。

2007年

雅虎运行着2个1000台机器的集群。
Hadoop包含HBase。

2008年

纱JIRA开业
Hadoop成为最快的系统，可在209秒内对900节点集群上的1 TB数据进行排序。
Yahoo群集每天加载10 TB数据。
Cloudera成立时是Hadoop发行商。

2009集群年

雅虎运行着17个群集，其中包含24,000台计算机。
Hadoop具有足够的能力来分类PB。
MapReduce和HDFS成为单独的子项目。

2010

Apache Zookeeper发布了。
雅虎拥有42,000个Hadoop节点和数百PB的存储空间。

2012年Apache Hadoop 1.0版本发布。2013年Apache Hadoop 2.2版本发布。2014年Apache Hadoop 2.6版本发布。2015年Apache Hadoop 2.hadoop7版本发布。2017年Apache Hadoop 3.0版本发布。2018年Apache Hadoop 3.1版本已发布。

hadoop集群是什么意思(hadoop集群和高可用的区别)

Hadoop的模块

Hadoop架构

H是什么adoop分布式文件系统

名称节点

数据节点

工作追踪器

任务追踪器

MapReduce图层

Hadoop的优势

Hadoop的历史

友情链接百度权重≥5符合友链交换

联系我们

hadoop集群是什么意思(hadoop集群和高可用的区别)

Hadoop的模块

Hadoop架构

H是什么adoop分布式文件系统

名称节点

数据节点

工作追踪器

任务追踪器

MapReduce图层

Hadoop的优势

Hadoop的历史

相关推荐

友情链接 百度权重≥5符合友链交换

联系我们

友情链接百度权重≥5符合友链交换