hadoopslaves文件|如何部署hadoop分布式文件系统-小MRY

A. hadoop分布式每次都要重新启动吗

hadoop分布式每次都要重新启动1配置hosts文件，将主机名和对应IP地址映射。如图中Master、Slave1和Slave2是我们要搭建分布式环境的机器。Master为主机，Slavex为从机。2配置SSH的无密码登录：可新建专用用户hadoop进行操作，cd命令进入所属目录下，输入以下指令（已安装ssh）ssh-keygen -t rsa -P ""cat .ssh/id_rsa.pub >>.ssh/authorized_keys解释一下，第一条生成ssh密码的命令，-t 参数表示生成算法，有rsa和dsa两种；-P表示使用的密码，这里使用“”空字符串表示无密码。第二条命令将生成的密钥写入authorized_keys文件。这时输入 ssh localhost，弹出写入提示后回车，便可无密码登录本机。同理，将authorized_keys文件通过 scp命令拷贝到其它主机相同目录下，则可无密码登录其它机器。安装hadoop：安装方式很简单，下载安装包到所属目录下，使用tar -zxvf 安装包名进行解压，解压完毕可通过mv 命令重命名文件夹，安装至此完成。解压后的目录内容如图所示。hadoop配置过程：要实现分布式环境，配置过程是最为重要的，这里要涉及到的配置文件有7个：~/hadoop/etc/hadoop/hadoop-env.sh~/hadoop/etc/hadoop/yarn-env.sh~/hadoop/etc/hadoop/slaves~/hadoop/etc/hadoop/core-site.xml~/hadoop/etc/hadoop/hdfs-site.xml~/hadoop/etc/hadoop/mapred-site.xml~/hadoop/etc/hadoop/yarn-site.xml之后会分别介绍各个配置的的作用和配置关键配置文件1：hadoop-env.sh该文件是hadoop运行基本环境的配置，需要修改的为java虚拟机的位置。故在该文件中修改JAVA_HOME值为本机安装位置（如，export JAVA_HOME=/usr/lib/jvm/java-1.7.0）配置文件2：yarn-env.sh该文件是yarn框架运行环境的配置，同样需要修改java虚拟机的位置。在该文件中修改JAVA_HOME值为本机安装位置（如，export JAVA_HOME=/usr/lib/jvm/java-1.7.0）配置文件3：slaves该文件里面保存所有slave节点的信息，以本篇为例写入以下内容（hosts里从机的主机名）：Slave1Slave2

B. hadoop服务器怎么查看自己的slave

有两种方式，第一就是有一个slaves文件，一个是hadoop管理界面，比如webhdfs,或者商用产品自带的管理平台

C. hadoop web 访问端是怎样配置文件

1、masters记录的是需要启动secondary namenode的节点, 不是namenode，它也和maprece没任何关系。 slaves记录的是需要执行start-all.sh（或相关命令）时，需要远程启动tasktracker与datanode的节点。2、这2个文件不需要分发至各个工作节点。3、哪个机器执行启动脚本，那它就是jobtracke与namenode，再根据masters确定secondary namenode, 根据slaves文件确定tasktracker与datanode，并远程启动这些守护进程。

D. hadoop2 slaves文件在哪

这是类似于hosts文件的东东你可以自己生成的，上面写的服务器名和ip地址的映射关系就可以了

E. hadoop下载文件时，ip地址为什么会变成了主机名

因为你集群配置的时候，用的都是host，所以他默认会用host，你可以把hadoop的slaves文件里面的主机名改为ip地址，，但是不推荐。。。。

F. 如何增加hadoop集群中的主机新的机器的dns

无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。本次操作之前，Hadoop的集群情况如下：HDFS的机器情况如下：MR的机器情况如下：添加机器在集群的Master机器中，修改$HADOOP_HOME/conf/slaves文件，在其中添加需要加入集群的新机器（hp3）的主机名：hp3hp2dell1dell2dell3dell4然后在Master机器中执行如下命令：$HADOOP_HOME/bin/start-all.sh这样操作完成之后，新的机器就添加到集群中来了。HDFS集群增加了一台新的机器：MR集群中也新增了一台机器：删除机器不安全的方式由于Hadoop集群自身具备良好的容错性，可以直接关闭相应的机器，从而达到将该机器撤除的目的。但是如果一次性操作3台以上的机器，就有可能造成部分数据丢失，所以不推荐使用这种方式进行操作。安全的方式在集群的Master机器中，新建一个文件：$HADOOP_HOME/conf/nn-excluded-list，在这个文件中指定需要删除的机器主机名（hp3）：hp3然后，修改Master机器的配置文件：$HADOOP_HOME/conf/hdfs-site.xml，添加如下内容：dfs.hosts.excludeconf/nn-excluded-list最后，在Master机器中执行如下命令：$HADOOP_HOME/bin/hadoopdfsadmin-refreshNodes这样操作完成之后，可以在HDFS集群中看到，hp3机器已经处于DecommissionInProgress状态：但是MR机器中hp3机器依旧在运行中：我们需要等待一定的时间，等待hp3中datanode的Decommission操作完成以后，再到hp3机器中关闭所有的Hadoop进程即可。

G. 如何配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的slaves

hadoop-2.x在$HADOOP_HOME/etc/hadoop目录下hadoop-1.x在$HADOOP_HOME/conf目录下

H. hadoop集群中hadoop需要启动哪些进程

启动Hadoop启动Hadoop集群需要启动HDFS集群和Map/Rece集群。格式化一个新的分布式文件系统：$ bin/hadoop namenode -format在分配的NameNode上，运行下面的命令启动HDFS：$ bin/start-dfs.shbin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。在分配的JobTracker上，运行下面的命令启动Map/Rece：$ bin/start-mapred.shbin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。-----来自官方文档

I. hadoop伪分布式安装怎么用虚拟机开启三台服务器

1.修改hadoop目录下的conf/hdfs-site.xml文件下dfs.replication属性为3。

<property><name>dfs.replication</name><value>3</value></property><property><name>dfs.data.dir</name><value>/hadoop/data</value></property>

2.修改地址解析文件/etc/hosts，加入形如

192.168.137.110master192.168.137.111slave1192.168.137.112slave2

3.其他重要配置文件core-site.xml/mapred-site.xml等修改相应属性。

4.把hadoop目录下的conf/ masters文件修改成形如下：

master

把hadoop目录下的conf/ slaves文件修改成形如下：

masterslave1slave2

注：如果用虚拟机去做这件事，首先你的电脑配置不会太差，毕竟你要开三个虚拟机；其次，我建议你使用ambari，

cloudera等工具搭建，比较简单，不过初学的话，自己动手可以更熟悉整个框架。

J. 如何部署hadoop分布式文件系统

一、实战环境系统版本：CentOS 5.8x86_64JAVA版本：JDK-1.7.0_25Hadoop版本：hadoop-2.2.0192.168.149.128namenode （充当namenode、secondary namenode和ResourceManager角色）192.168.149.129datanode1 （充当datanode、nodemanager角色）192.168.149.130datanode2 （充当datanode、nodemanager角色）二、系统准备1、Hadoop可以从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件，所以如果需要在64位系统上部署则需要单独下载src 源码自行编译。（如果是真实线上环境，请下载64位hadoop版本，这样可以避免很多问题，这里我实验采用的是32位版本）1234 HadoopJava2、我们这里采用三台CnetOS服务器来搭建Hadoop集群，分别的角色如上已经注明。第一步：我们需要在三台服务器的/etc/hosts里面设置对应的主机名如下（真实环境可以使用内网DNS解析）[[email protected] hadoop]# cat /etc/hosts# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1localhost.localdomain localhost192.168.149.128node1192.168.149.129node2192.168.149.130node3（注* 我们需要在namenode、datanode三台服务器上都配置hosts解析）第二步：从namenode上无密码登陆各台datanode服务器，需要做如下配置:在namenode 128上执行ssh-keygen，一路Enter回车即可。然后把公钥/root/.ssh/id_rsa.pub拷贝到datanode服务器即可，拷贝方法如下：ssh--id -i .ssh/id_rsa.pub [email protected]ssh--id -i .ssh/id_rsa.pub [email protected]三、Java安装配置tar -xvzf jdk-7u25-linux-x64.tar.gz &&mkdir -p /usr/java/ ; mv /jdk1.7.0_25 /usr/java/ 即可。安装完毕并配置java环境变量，在/etc/profile末尾添加如下代码：export JAVA_HOME=/usr/java/jdk1.7.0_25/export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVE_HOME/lib/dt.jar:$JAVE_HOME/lib/tools.jar:./保存退出即可，然后执行source /etc/profile 生效。在命令行执行java -version 如下代表JAVA安装成功。[[email protected] ~]# java -versionjava version "1.7.0_25"Java(TM) SE Runtime Environment (build 1.7.0_25-b15)Java HotSpot(TM) 64-Bit Server VM (build 23.25-b01, mixed mode)（注* 我们需要在namenode、datanode三台服务器上都安装Java JDK版本）四、Hadoop版本安装官方下载的hadoop2.2.0版本，不用编译直接解压安装就可以使用了，如下：第一步解压:tar -xzvf hadoop-2.2.0.tar.gz &&mv hadoop-2.2.0/data/hadoop/（注* 先在namenode服务器上都安装hadoop版本即可，datanode先不用安装，待会修改完配置后统一安装datanode）第二步配置变量：在/etc/profile末尾继续添加如下代码，并执行source /etc/profile生效。export HADOOP_HOME=/data/hadoop/export PATH=$PATH:$HADOOP_HOME/bin/export JAVA_LIBRARY_PATH=/data/hadoop/lib/native/（注* 我们需要在namenode、datanode三台服务器上都配置Hadoop相关变量）五、配置Hadoop在namenode上配置，我们需要修改如下几个地方：1、修改vi /data/hadoop/etc/hadoop/core-site.xml 内容为如下：<?xml version="1.0"?><?xml-stylesheet type="text/xsl"href=\'#\'" Put site-specific property overrides inthisfile. --><configuration><property><name>fs.default.name</name><value>hdfs://192.168.149.128:9000</value></property><property><name>hadoop.tmp.dir</name><value>/tmp/hadoop-${user.name}</value><description>A base forother temporary directories.</description></property></configuration>2、修改vi /data/hadoop/etc/hadoop/mapred-site.xml内容为如下：<?xml version="1.0"?><?xml-stylesheet type="text/xsl"href=\'#\'" Put site-specific property overrides inthisfile. --><configuration><property><name>mapred.job.tracker</name><value>192.168.149.128:9001</value></property></configuration>3、修改vi /data/hadoop/etc/hadoop/hdfs-site.xml内容为如下：<?xml version="1.0"encoding="UTF-8"?><?xml-stylesheet type="text/xsl"href=\'#\'" /name><value>/data/hadoop/data_name1,/data/hadoop/data_name2</value></property><property><name>dfs.data.dir</name><value>/data/hadoop/data_1,/data/hadoop/data_2</value></property><property><name>dfs.replication</name><value>2</value></property></configuration>4、在/data/hadoop/etc/hadoop/hadoop-env.sh文件末尾追加JAV_HOME变量：echo "export JAVA_HOME=/usr/java/jdk1.7.0_25/">> /data/hadoop/etc/hadoop/hadoop-env.sh5、修改 vi /data/hadoop/etc/hadoop/masters文件内容为如下：192.168.149.1286、修改vi /data/hadoop/etc/hadoop/slaves文件内容为如下：192.168.149.129192.168.149.130如上配置完毕，以上的配置具体含义在这里就不做过多的解释了，搭建的时候不明白，可以查看一下相关的官方文档。如上namenode就基本搭建完毕，接下来我们需要部署datanode，部署datanode相对简单，执行如下操作即可。1 fori in`seq 129130` ; doscp -r /data/hadoop/ [email protected]$i:/data/ ; done自此整个集群基本搭建完毕，接下来就是启动hadoop集群了。

hadoopslaves文件|如何部署hadoop分布式文件系统