hadoop：伪分布模式启动步骤分解

云烟 • 2024年 9月 16日上午8:45 • 未分类

欢迎大家来到IT世界,在知识的湖畔探索吧!

1、格式化HDFS

在运行伪分布式前，需先对NameNode进行格式化，在命令行中输入

hdfs namenode -format          # 格式化hdfs

欢迎大家来到IT世界,在知识的湖畔探索吧!

若出现successfully formatted字样，则说明格式化成功

2、启动hadoop

然后启动hadoop集群

欢迎大家来到IT世界,在知识的湖畔探索吧!start-all.sh # 一次性启动所有服务

或使用以下命令单独启动各项服务

start-dfs.sh      #启动hdfs

欢迎大家来到IT世界,在知识的湖畔探索吧!start-yarn.sh     #启动mapreduce框架yarn

利用jps命令查看是否启动成功，如果出现下述进程，则证明启动成功

Jps

运行后显示有如下进程。

启动完成后，我们可使用Web端口检测集群运行情况，建议使用360或Chrome浏览器。

查看ResourceManager Web界面：

打开主机浏览器，然后输入下述网址：http://192.168.1.618:8088，在该界面我们能查看集群任务运行情况

NameNode HDFS Web界面

打开主机浏览器，然后输入下述网址：http://192.168.152.128:50070，在该界面我们能查看集群hdfs基本运行情况

3、测试运行

接下来，我们仍以grep为例测试其在伪分布式上运行情况。和单机模式不同，伪分布式运行时默认读取hdfs上文件，同时也会将输出结果保存在hdfs上，因此我们要提前在hdfs上创建文件夹，更多关于hdfs的操作会在下文介绍

3.1、HDFS基本操作指令

由于伪分布式运行时，数据从HDFS上进行读取，在上传数据至HDFS之前，我们需要在HDFS中创建用户目录。

hdfs dfs -mkdir -p /user/hduser

接着，我们选取hadoop配置文件夹中的xml文件作为输入文件复制到HDFS系统中。

hdfs dfs -mkdir input

cd ~/hadoop

hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、运行grep例子

伪分布式运行 MapReduce 作业的方式跟单机模式相同，只是读取文件和输出文件保存均在HDFS中。

运行过程中可在8088端口查看mapreduce任务运行情况

运行完成后如下所示

查看保存在HDFS中的运行结果

hdfs dfs -cat output/*

当然，我们也可进一步将结果取回本地

cd ~/hadoop

rm -r ./output # 先删除本地的 output 文件夹（如果存在）

hdfs dfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机

cat ./output/*  #查看所有文件

到这里hadoop伪分布的安装启动就介绍完成了。伪分布的优点是在一台计算机上也可以使用Hadoop命令；缺点也是显而易见的发挥不了Hadoop设计初衷–分布式存储与分布式计算。

在下文中我将给大家介绍多节点的分布式集群搭建教程。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/73119.html