注:Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark、MapReduce、Storm。
10. 启动并验证hadoop集群:
a. 格式化hdfs文件系统:hadoopnamenode –format/hdfsnamenode -format
该命令会启动,格式化,然后关闭namenode。 实际上格式化后,在namenode上会生成以下文件:
其中VERSION文件的内容如下:
该命令不会在datanode的dfs.datanode.data.dir对应的目录下生成任何文件:
有关该命令的细节请参考官方文档:
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#namenode
b. 启动hdfs: start-dfs.sh
使用jps验证HDFS是否启动成功:
通过webui检查HDFS是否启动成功
http://master:50070
注1:实际上第一次启动hdfs后,在datanode的dfs.datanode.data.dir对应的目录下会生成current目录,该目录下的BP文件与namenode上
dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的blockpoolID字段的值一致;在该目录下也会生成VERSION文件,该VERSION文件中的clusterID和namenode的dfs.namenode.name.dir对应的目录下的current子目录的VERSION文件中的clusterID一致:
实际上在后续执行了hdfsnamenode –format后,namenode的VERSION文件会改变:
而dananode的BP和VERSION文件都不会改变:
再次start-dfs.sh时,namenode可以成功启动,但在datanode上,因为version文件与namenode的不一致,datanode不能成功启动并成功注册到namenode! 所以:每次执行hdfsnamenode–format前,必须清空datanode的data文件夹!(namenode的name文件夹不需要清空,namenode和datanode的tmp文件夹也不需要空。)