hadoophdfs配置文件|搭建hadoop集群常用配置文件是什么以及配置哪些属性-小MRY

『壹』如何配置Hadoop环境

资源下载

1、JDK下载：下载链接2、hadoop：下载链接3、下载完成后验证一下下载，将计算的MD5值与官网的进行对比已验证安装包的准确性：

md5sum ./hadoop-2.6.*.tar.gz | tr "a-z" "A-Z" # 计算md5值，并转化为大写，方便比较1

一、创建Hadoop用户

创建hadoop用户，并分配以用户名为家目录/home/hadoop，并将其加入到sudo用户组，创建好用户之后，以hadoop用户登录：

sudo useradd -m hadoop -s /bin/bash sudo adser hadoop sudosudo passwd hadoop # 设置hadoop用户密码123

二、安装JDK、Hadoop及配置环境变量

安装，解压JDK到/usr/lib/java/路径下，Hadoop到/usr/local/etc/hadoop/路径下：

tar zxf ./hadoop-2.6.*.tar.gzmv ./hadoop-2.6.* /usr/local/etc/hadoop # 将 /usr/local/etc/hadoop作为Hadoop的安装路径12

解压完成之后，可验证hadoop的可用性：

cd /usr/local/etc/hadoop./bin/hadoop version # 查看hadoop的版本信息12

若在此处，会出现类似以下的错误信息，则很有可能是该安装包有问题。

Error: Could not find or load main class org.apache.hadoop.util.VersionInfo1

配置环境，编辑“/etc/profile”文件，在其后添加如下信息：

export HADOOP_HOME=/usr/local/etc/hadoopexport JAVA_HOME=/usr/lib/java/jdk1.8.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin12345

使配置的变量生效：

source /etc/profile1

三、测试一下

在此我们可以运行一个简单的官方Demo：

cd `echo $HADOOP_HOME` # 到hadoop安装路径mkdir ./inputcp ./etc/hadoop/*.xml ./inputhadoop jar ./share/hadoop/maprece/hadoop-maprece-examples-*.jar grep ./input ./output 'dfs[a-z.]+'1234

输出的结果应该会是：

1 dfsadmin 1

这里有一点需要注意，该Example程序运行时不能已存在output目录，否则或将无法执行！

四、Hadoop的伪分布式环境搭建

什么是伪分布式？Hadoop 伪分布式模式是在一台机器上模拟Hadoop分布式，单机上的分布式并不是真正的分布式，而是使用线程模拟的分布式。分布式和伪分布式这两种配置也很相似，唯一不同的地方是伪分布式是在一台机器上配置，也就是名字节点（namenode）和数据节点（datanode）均是同一台机器。

需要配置的文件有core-site.xml和hdfs-site.xml这两个文件他们都位于${HADOOP_HOME}/etc/hadoop/文件夹下。其中core-site.xml：

1 <?xml version="1.0" encoding="UTF-8"?>2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>3 18 19 <configuration>20 <property>21 <name>hadoop.tmp.dir</name>22 <value>file:/home/hadoop/tmp</value>23 <description>Abase for other temporary directories.</description>24 </property>25 <property>26 <name>fs.default.name</name>27 <value>hdfs://master:9000</value>28 </property>29 </configuration> 1234567891011121314151617

文件hdfs-site.xml的配置如下：

1 <?xml version="1.0" encoding="UTF-8"?>2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>3 18 19 <configuration>20 <property>21 <name>dfs.replication</name>22 <value>1</value>23 </property>24 <property>25 <name>dfs.namenode.name.dir</name>26 <value>file:/home/hadoop/tmp/dfs/name</value>27 </property>28 <property>29 <name>dfs.datanode.data.dir</name>30 <value>file:/home/hadoop/tmp/dfs/data</value>31 </property> 32 </configuration>

配置完成后，执行格式化命令，使HDFS将制定的目录进行格式化：

hdfs namenode -format1

若格式化成功，在临近输出的结尾部分可看到如下信息：如果发现并没有出现如上信息，则使用刷新节点命令进行刷新：

hdfs dfsadmin -refreshNodes1

八、HDFS集群实例测试

依然是之前的那个示例，首先，创建一个数据源文件夹，并添加数据：

hdfs dfs -mkdir /input hdfs dfs -put /usr/local/etc/hadoop/etc/hadoop/*.xml /input12

运行maprece示例：

hadoop jar /usr/local/etc/hadoop/share/hadoop/maprece/hadoop-maprece-examples-*.jar grep /input /output 'dfs[a-z.]+'1

holding…

『贰』搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

1 cd ~/.ssh# 如果找不到这个文件夹，先执行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

2. 使用wget命令下载：

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

（Hadoop集群安装配置过程基本和单机版是一样的，主要是在配置文件方面有所区别，以及ssh无密登陆要求master和slave能够互相无密登陆。

『叁』大数据 hadoop 三种运行模式的区别、及详细配置讲解

基于Hadoop进行开发时，有时候会被Hadoop的运行模式弄得晕头转向，傻傻分不清各种运行模式的区别，给日常开发带来很多困惑，不同集群配置文件也各不相不同。弄明白Hadoop的运行模式和对配置文件的作用要做到心中明了，在工作中才能得手顺心。

hadoop的配置文件均以XML文件进行配置，它有四个最常见的配置文件，分别为：

core-site.xml文件主要用于配置通用属性。

hdfs-site.xml文件用于配置Hdfs的属性。

mapred-site.xml文件用于配置Maprece的属性。

yarn-site.xml文件用于配置Yarn的属性。

一般来说，这四种配置文件都存储在hadoop默认的安装目录etc/hadoop子目录中。不过我们也可以在搭建集群时根据实际需求，把etc/hadoop目录和其下的文件复制到另外一个位置。这样可以把配置文件和安装文件分离开来，方便管理。

注意：如果把etc/hadoop目录和其下的文件复制到另外一个位置。我们需要在环境变量中将hadoop_conf_dir设置成指向新目录。

1、本地运行模式

无需任何守护进程，所有的程序都运行在同一个JVM上执行。在本地模式下调试MR程序非常高效方便，一般该模式主要是在学习或者开发阶段调试使用。

2、伪分布式模式

Hadoop守护进程运行在本地机器上，模拟一个小规模的集群，换句话说，可以配置一台机器的Hadoop集群，伪分布式是完全分布式的一个特例。

3、完全分布式模式

Hadoop守护进程运行在一个集群上。这种运行模式也就是我们常见的各种云，主要用于大规模的生产环境中。

注意：分布式要启动守护进程，是指在使用分布式hadoop时，要先启动一些准备程序进程，然后才能使用。比如start-dfs.sh start-yarn.sh，而本地模式不需要启动这些守护进程。

注意：在本地模式下，将使用本地文件系统和本地MapRece运行器。在分布式模式下，将启动HDFS和YARN守护进程。

『肆』 hadoop 配置文件部分

9000端口：是fileSystem默认的端口号： 50070端口: 50070是hdfs的web管理页面的端口（50070端口也可以查看hdfs 的总存储以及用了多少等情况），如下图 8020端口: namenode 节点下active的端口添加配置文件，即可解决问题

『伍』 Hadoop集群配置

切换到Hadoop解压目录的etc/hadoop/目录下，编辑hadoop-env.sh，修改如下内容：该文件是Hadoop的核心配置文件，目的是配置HDFS地址、端口号以及临时文件目录。该文件MapRece的核心文件，用于指定MapRece运行时框架。在etc/hadoop/目录没有该文件，需要将mapred-site.xml.template复制并重命名为mapred-site.xml。该文件YARN的核心文件，需要指定YARN集群的管理者。该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名，用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件，先删除里面的内容(默认localhost)，配置如下内容完成Hadoop集群主节点hadoop01的配置后，还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上，具体指令： scp /etc/profile hadoop02:/etc/profile scp /etc/profile hadoop03:/etc/profile scp -r /export/ hadoop02:/ scp -r /export/ hadoop03:/ 完成后，在hadoop02和hadoop03节点刷新配置文件： source /etc/profile 初次启动HDFS集群时，必须对主节点进行格式化处理。注意：格式化指令只需在Hadoop集群初次启动前执行即可。指令： hdfs namenode –format 或 hadoop namenode -format 出现“successfully formatted"字样表示格式化成功。针对Hadoop集群的启动，需要启动内部包含的HDFS集群和YARN集群两个集群框架。启动：（1）start-dfs.sh #启动所有HDFS服务进程（2）start-yarn.sh #启动所有YARN服务进程或者： start-all.sh直接启动整个Hadoop集群服务关闭则直接将上述指令中的start换成stop即可。在整个Hadoop集群服务启动完成后，可以在各自机器上通过jps指令查看各节点的服务进程启动情况。集群启动成功。

『陆』 kettle连接hadoop配置hdfs文件数据导出

1、Win10本地安装JDK1.8环境，运行kettle 6.1。 2、在kettle中设置Active shim，在工具打开“hadoop distribution”，选择hdp。将hadoop配置文件hdfs-site.xml、core-site.xml拷贝至本地.\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23\下，修改本地core-site文件内fs.defaultFS的值，使用hdfs://192.168.85.129:8020。 3、配置hadoop cluster连接，在作业或转换“主对象树”选中“hadoop cluster”，右击“new cluster”，填写相关信息。遇到本机用户不能访问hdfs下/user目录权限，在/user目录新建本机用户zhengyuan目录，并授予zhengyuan用户拥有目录权限，参考： https://blog.csdn.net/weinierzui/article/details/77931346 ，测试ok保存。 4、新建转换，用hadoop file input组件访问hdfs，数据文件已传至zhengyuan目录下。在内容页签，设置分隔符为tab，格式选unix，在字段页签，加入读取数据的各列的名称、属性信息，这些列名和后面接数组件的字段配置映射时用到。在文件页签-显示文件内容、字典页签-预览记录，多可以浏览数据文件内容，表明配置ok。 5、kettle加个表输出组件，配置接出数据源、数据表，配置映射，即可执行同步，将hdfs文件数据解析同步存至外部数据源，比如mysql。此处只测了数据可以同步，生产中还需考虑调度及增量同步。

hadoophdfs配置文件|搭建hadoop集群常用配置文件是什么以及配置哪些属性

相关推荐

随便看看

热门标签

最新文章