⑴ Cloudera CDH Impala本地通过Parcel安装配置详解及什么是Parcel
本地通过Parcel安装过程与本地通过Package安装过程完全一致,不同的是两者的本地源的配置。区别如下:Package本地源:软件包是.rpm格式的,数量通常较多,下载的时候比较麻烦。通过"createrepo ."的命令创建源,并要放到存放源文件主机的web服务器的根目录下,详见创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备Parcel本地源:软件包是以.parcel结尾,相当于压缩包格式的,一个系统版本对应一个,下载的时候方便。如centos 6.x使用的CDH版本为CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel,而centos 5.x使用的CDH版本为CDH-4.3.0-1.cdh4.3.0.p0.22-el5.parcel。
⑵ 哪位大神知道从安装hadoop2.7.1到配置文件的所有正确流程
个人推荐1)官方文档+加老外的文章(遇问题时)2)如果单纯装装想看hadoop长什么样子和简单使用,建议去找安装好镜像文件,直接跑在虚拟机上,立马能用3)cloudera的部署工具安装,向导级,很容易部署成功4)看相关文章(hadoop,hive,hbase,snoop等)看精华文章,关注下我的技术社区,个人描述里有
⑶ cloudera manager的环境变量怎么配置
配置文件地址:Hadoop: /etc/hadoop/confhbase: /etc/hadoop/confhive: /etc/hive/conf使用cloudera manager web UI 修改hadoop .xml文件属性方法:For Cloudera the best way to push this configuration to the nodes is to use the Cloudera manager GUI.From the Cloudera web page, click on the HDFS service under Status to open the HDFS service.Click Configuration, and choose View and EditOn the left panel expand Service-Wide and click advanceClick on Cluster-wide Configuration Safety Valve for core-site.xmlEnter the setting from Table aboveSettings entered into core-site safety valveAt the top right of the page, Click Save ChangeGo back to the Cloudera Manager Home screen. Using the drop down stop the HDFS service.Using the drop down next to the Status, deploy the client configurationgUsing the drop down, restart the Maprece service.Check that the nodes have received the correct configuration. From the CLI on a node do a grep on the core-site.xml and search for HSKcat /etc/hadoop/conf.cloudera.hdfs1/core-site.xml |grep HSKNext Upload the java ViPR client JAR file to a client using WinSCP and it to the Hadoop Classpath on all Hadoop nodes.On the first node where you have uploaded the ViPr client it to the Cloudera Classpathcp hadoop-2.0.x-alpha-viprfs-1.0.1.jar /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/lib/hadoop/lib
⑷ 怎样修改Cloudera hadoop里面的默认配置
配置文件地址:Hadoop: /etc/hadoop/confhbase: /etc/hadoop/confhive: /etc/hive/conf使用cloudera manager web UI 修改hadoop .xml文件属性方法:
For Cloudera the best way to push this configuration to the nodes is to use the Cloudera manager GUI.
Validate that the connection is working with a hadoop list command. First using the ViPR URL then just a normal Hadoop list:
修改Hive配置文件路径的方法: hive1->configuration->view and edit->default->HiveServer2->Advanced如果想对hive-site.xml的修改存储在Cloudera Manager,则可通过上面的方法选择Hive Service Configuration Safety Valve for hive-site.xml来添加属性。如果想要将所添加的属性,出现在服务器的/etc/hive/conf/hive-site.xml文件中,则可以hive1->configuration->view and edit->default->Gateway->Advanced->Hive Client Configuration Safety Valve for hive-site.xml.Be sure to restart Hive, restart any dependent services (Hue and Impala), and deploy client configs after making a configuration change.
⑸ 如何修改cloudera默认的java路径
配置文件地址:Hadoop: /etc/hadoop/confhbase: /etc/hadoop/confhive: /etc/hive/conf使用cloudera manager web UI 修改hadoop .xml文件属性方法:
⑹ cloudera hadoop安装rhadoop问题求教
第一个问题,大概说的是hostname解析错误,你试试这个地址archive.apache.org能否ping通,或者浏览器试着访问一下,因为这个地址好像不能解析成功,所以从这个地址下载下的包缺失了。第二个问题我不太懂。第三个问题看起来是像是一些文件没找到,可能是配置文件。不过不一定,有可能配置文件一直在,只是因为缺少包依赖(第一个问题),有的class加载有问题。我没接触过CDH啊,若没帮上忙忽略吧。
⑺ 如何在Linux上安装与配置Hadoop-IT168 技术开发专区
在Linux上安装Hadoop之前,需要先安装两个程序:1. JDK 1.6或更高版本;2. SSH(安全外壳协议),推荐安装OpenSSH。下面简述一下安装这两个程序的原因:1. Hadoop是用Java开发的,Hadoop的编译及MapRece的运行都需要使用JDK。2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式,Hadoop会采用与集群相同的处理方式,即依次序启动文件conf/slaves中记载的主机上的进程,只不过伪分布式中salve为localhost(即为自身),所以对于伪分布式Hadoop,SSH一样是必须的。一、安装JDK 1.6安装JDK的过程很简单,下面以Ubuntu为例。(1)下载和安装JDK确保可以连接到互联网,输入命令:sudo apt-get install sun-java6-jdk输入密码,确认,然后就可以安装JDK了。这里先解释一下sudo与apt这两个命令,sudo这个命令允许普通用户执行某些或全部需要root权限命令,它提供了详尽的日志,可以记录下每个用户使用这个命令做了些什么操作;同时sudo也提供了灵活的管理方式,可以限制用户使用命令。sudo的配置文件为/etc/sudoers。apt的全称为the Advanced Packaging Tool,是Debian计划的一部分,是Ubuntu的软件包管理软件,通过apt安装软件无须考虑软件的依赖关系,可以直接安装所需要的软件,apt会自动下载有依赖关系的包,并按顺序安装,在Ubuntu中安装有apt的一个图形化界面程序synaptic(中文译名为“新立得”),大家如果有兴趣也可以使用这个程序来安装所需要的软件。(如果大家想了解更多,可以查看一下关于Debian计划的资料。)(2)配置环境变量输入命令:sudo gedit /etc/profile输入密码,打开profile文件。在文件的最下面输入如下内容:#set Java Environmentexport JAVA_HOME= (你的JDK安装位置,一般为/usr/lib/jvm/java-6-sun)export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"export PATH="$JAVA_HOME/:$PATH"这一步的意义是配置环境变量,使你的系统可以找到JDK。(3)验证JDK是否安装成功输入命令:java -version查看信息:java version "1.6.0_14"Java(TM) SE Runtime Environment (build 1.6.0_14-b08)Java HotSpot(TM) Server VM (build 14.0-b16, mixed mode)二、配置SSH免密码登录同样以Ubuntu为例,假设用户名为u。1)确认已经连接上互联网,输入命令sudo apt-get install ssh2)配置为可以无密码登录本机。首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”,这是一个隐藏文件夹),输入命令:ls -a /home/u一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手动创建一个。接下来,输入命令:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa解释一下,ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密钥密语的相关知识这里就不详细介绍了,里面会涉及SSH的一些知识,如果读者有兴趣,可以自行查阅资料。)在Ubuntu中,~代表当前用户文件夹,这里即/home/u。这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是SSH的一对私钥和公钥,类似于钥匙及锁,把id_dsa.pub(公钥)追加到授权的key里面去。输入命令:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys是用于认证的公钥文件。至此无密码登录本机已设置完毕。3)验证SSH是否已安装成功,以及是否可以无密码登录本机。输入命令:ssh -version显示结果:OpenSSH_5.1p1 Debian-6ubuntu2, OpenSSL 0.9.8g 19 Oct 2007Bad escape character 'rsion'.显示SSH已经安装成功了。输入命令:ssh localhost会有如下显示:The authenticity of host 'localhost (::1)' can't be established.RSA key fingerprint is 8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77.Are you sure you want to continue connecting (yes/no)? yesWarning: Permanently added 'localhost' (RSA) to the list of known hosts.Linux master 2.6.31-14-generic #48-Ubuntu SMP Fri Oct 16 14:04:26 UTC 2009 i686To access official Ubuntu documentation, please visit:http://help.ubuntu.com/Last login: Mon Oct 18 17:12:40 2010 from master[email protected]:~$这说明已经安装成功,第一次登录时会询问你是否继续链接,输入yes即可进入。实际上,在Hadoop的安装过程中,是否无密码登录是无关紧要的,但是如果不配置无密码登录,每次启动Hadoop,都需要输入密码以登录到每台机器的DataNode上,考虑到一般的Hadoop集群动辄数百台或上千台机器,因此一般来说都会配置SSH的无密码登录。三、安装并运行Hadoop介绍Hadoop的安装之前,先介绍一下Hadoop对各个节点的角色定义。Hadoop分别从三个角度将主机划分为两种角色。第一,划分为master和slave,即主人与奴隶;第二,从HDFS的角度,将主机划分为NameNode和DataNode(在分布式文件系统中,目录的管理很重要,管理目录的就相当于主人,而NameNode就是目录管理者);第三,从MapRece的角度,将主机划分为JobTracker和TaskTracker(一个job经常被划分为多个task,从这个角度不难理解它们之间的关系)。Hadoop有官方发行版与cloudera版,其中cloudera版是Hadoop的商用版本,这里先介绍Hadoop官方发行版的安装方法。Hadoop有三种运行方式:单节点方式、单机伪分布方式与集群方式。乍看之下,前两种方式并不能体现云计算的优势,在实际应用中并没有什么意义,但是在程序的测试与调试过程中,它们还是很有意义的。你可以通过以下地址获得Hadoop的官方发行版:http://www.apache.org/dyn/closer.cgi/Hadoop/core/下载Hadoop-0.20.2.tar.gz并将其解压,这里会解压到用户目录下,一般为:/home/[你的用户名]/。单节点方式配置:安装单节点的Hadoop无须配置,在这种方式下,Hadoop被认为是一个单独的Java进程,这种方式经常用来调试。伪分布式配置:你可以把伪分布式的Hadoop看做是只有一个节点的集群,在这个集群中,这个节点既是master,也是slave;既是NameNode也是DataNode;既是JobTracker,也是TaskTracker。伪分布式的配置过程也很简单,只需要修改几个文件,如下所示。进入conf文件夹,修改配置文件:Hadoop-env.sh:export JAVA_HOME=“你的JDK安装地址”指定JDK的安装位置:conf/core-site.xml:<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property></configuration>这是Hadoop核心的配置文件,这里配置的是HDFS的地址和端口号。conf/hdfs-site.xml:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>这是Hadoop中HDFS的配置,配置的备份方式默认为3,在单机版的Hadoop中,需要将其改为1。conf/mapred-site.xml:<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property></configuration>这是Hadoop中MapRece的配置文件,配置的是JobTracker的地址和端口。需要注意的是,如果安装的是0.20之前的版本,那么只有一个配置文件,即为Hadoop-site.xml。接下来,在启动Hadoop前,需格式化Hadoop的文件系统HDFS(这点与Windows是一样的,重新分区后的卷总是需要格式化的)。进入Hadoop文件夹,输入下面的命令:bin/Hadoop NameNode -format格式化文件系统,接下来启动Hadoop。输入命令:bin/start-all.sh(全部启动)最后,验证Hadoop是否安装成功。打开浏览器,分别输入网址:http://localhost:50030 (MapRece的Web页面)http://localhost:50070 (HDFS的Web页面)如果都能查看,说明Hadoop已经安装成功。对于Hadoop来说,安装MapRece及HDFS都是必须的,但是如果有必要,你依然可以只启动HDFS(start-dfs.sh)或MapRece(start-mapred.sh)。
⑻ 安装分布式模式cloudera有哪些步骤
1 Hadoop的安装注意事项最近云计算在中国极为火爆,但看了云计算的那些云山雾罩的概念后,实在让人望而却步。还好不是所有的东西都摸不着头脑,Hadoop就是实实在在的技术之一。不才最近仔细品读了Hadoop的基础资料,特别是如何部署Hadoop的相关技术文档,发现其中有许多不为人注意的东西,在此整理一下。Hadoop 开发者入门专刊(pdf) 是目前比较权威的文档;有什么与Hadoop相关的技术问题也可以到专业的Hadoop技术论坛上去讨论。1.1 Hadoop 集群的组成成份Hadoop的核心功能有两个:HDFS与MapRece 。与HDFS相关的服务有NameNode 、SecondaryNameNode 及DataNode ;与MapRece 相关的服务有JobTracker 和TaskTracker 两种。Hadoop集群中有两种角色:master与slave,master又分为主master与次master。其中:主 master同时提供NameNode 、SecondaryNameNode 及JobTracker 三种服务;次master只提供SecondaryNameNode 服务;所有slave可以提供DateNode 或TaskTracker 两种服务。1.2 Hadoop有三种集群方式可以选择:Local (Standalone) Mode(无集群模式)Pseudo-Distributed Mode(单机集群模式)Fully-Distributed Mode(多机集群模式)一个Hadoop集群由多台电脑组成,每台电脑可作为一种或多种角色存在。当使用Pseudo-Distributed Mode创建Hadoop集群时,一台电脑同时完成主master和slave两种角色的任务。在Fully-Distributed Mode下,如果只有一台电脑作为master,则此电脑完成主master的任务;如果有多台电脑作为master存在,则第一台电脑完成主 master的任务,其它电脑完成次master的任务。1.3 实际部署Hadoop集群在实际操作中,集群中的电脑名字都是通过/etc/hosts文件指定的。集群中主master是核心,担任这种角色的电脑在其/etc/hosts中保存有集群中所有电脑的名字。次 master与所有的slave只负责与主master联系,所以在这些计算机上的/etc/hosts中只要保存自身和主master的计算机别名即可。集群模式的选择主要靠主master上$HADOOP_HOME /conf /目录下的masters与slaves两个文件配置完成。如果需要Pseudo-Distributed Mode,则masters与slaves两个文件的内容同时指向主master电脑名字即可。如果需要Fully-Distributed Mode,则masters文件中第一行记录的是主master电脑名字,其它行记录的是次master电脑名字。无密码SSH 登录启动Hadoop的方式是在主master上调用下面的命令:$HADOOP_HOME /bin/start-all.sh此调用过程中,Hadoop依次启动以下服务:在主master上启动NameNode 服务;在主master上启动SecondaryNameNode 服务;在次master上启动SecondaryNameNode 服务;在所有slave上启动DataNode 服务;在主master上启动JobTracker 服务;在所有slave上的TaskTracker 服务。 部署Hadoop过程中Hadoop需要启动服务,在此需要注意以下几点:(1) 启动NameNode 与JobTracker 服务不需要SSH授权;(2) 需要通过SSH登录之后才能启动SecondaryNameNode 、DataNode 以及TaskTracker 服务,因此:因为需要启动SencondaryNameNode服务,所以要为主master提供SSH授权;因为需要启动SencoddaryNameNode 服务,所以要为所有的次master提供SSH授权;因为需要启动DataNode 和TaskTracker 服务,所以要为所有的slave提供SSH授权。总而言之,要为Hadoop集群中的所有计算机提供SSH授权。为什么要提供无密码SSH登录方式呢?为的是图省事儿。试想在启动 Hadoop集群过程中,要手动输入每一台电脑的SSH密码将是一件多么烦人的事!SSH授权的方法在这里不做详细的描述。无密码SSH登录技术也是相对成熟的技术。但有一个环节需要注意,那就是文件的访问权限问题。表现为:Linux系统中$HOME目录下的.ssh目录为用户所有,权限必须为700(只有用户自己可以全权访问);.ssh目录下的授权文件“authorized_keys”为用户所有,权限必须为644。本节有关部署Hadoop应该注意的事项介绍完毕。 2 三种安装模式的说明2.1 本地安装模式HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本,介绍在UbuntuLinux9.10下hadoop本地安装的方法。支持的平台:Linux,可作为开发和产品部署的平台;Windows,可作为开发平台。事先需要的软件:1.JavaTM1.6.x,必须安装,建议选择Sun公司发行的Java版本;2.ssh必须安装,并保证sshd运行,hadoop将以ssh进行通讯;3.如果是windows,则需要装Cygwin,用以支持shell命令。本地模式安装步骤:1.将hadoop安装包解压缩到某目录下;2.修改conf/hadoop-env.sh文件,exportJAVA_HOME=那行设置正确的JAVA_HOME位置,当然如果事先在操作系统已经set完JAVA_HOME,可以忽略此步骤;Hadoop本地模式安装完了测试一下运行效果:$mkdirinput$cpconf/*.xmlinput$bin/hadoopjarhadoop-*-examples.jargrepinputoutput'dfs[a-z.]+'$catoutput/*这个示例程序是hadoop自带的,用于把conf下的xml文件拷贝到input目录下,并且找到并显示所有与最后一个参数的正则表达式相匹配的行,output是输出文件夹。本节关于Hadoop本地安装介绍到这里,希望你有所收获。2.2 伪分布式模式下面就hadoop0.20.1为蓝本,介绍在UbuntuLinux9.10下hadoop伪分布安装的方法。支持的平台:Linux,可作为开发和产品部署的平台;Windows,可作为开发平台。事先需要的软件:1.JavaTM1.6.x,必须安装,建议选择Sun公司发行的Java版本;2.ssh必须安装,并保证sshd运行,hadoop将以ssh进行通讯;3.如果是windows,则需要装Cygwin,用以支持shell命令。安装步骤1.将hadoop安装包解压缩到某目录下;2.修改conf/hadoop-env.sh文件,exportJAVA_HOME=那行设置正确的JAVA_HOME位置3.修改conf/core-site.xml,改为: <configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property></configuration><configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property></configuration> 4.修改conf/hdfs-site.xml,改为: <configuration><property><name>dfs.replication</name><value>1</value></property></configuration><configuration><property><name>dfs.replication</name><value>1</value></property></configuration> 5.修改conf/mapred-site.xml,改为:<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration><configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration> 6.设置本机ssh本机无密码先测试一下,输入命令sshlocalhost,如果提示密码,则需要进行以下操作:$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa$cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys7.格式化namenode:$bin/hadoopnamenode-format8.启动Hadoop:$bin/start-all.sh至此,hadoop伪分布模式安装完毕!2.3 完全分布式模式Hadoop完全分布模式安装步骤(这里的步骤只让hadoop能跑,不带任何调优步骤):1.下载并解压hadoop到集群中某台服务器目标目录。2.配置/etc/hosts文件2.1确认集群中所有服务器均有hostname,并记录IP2.2每一台服务器的/etc/hosts文件里配置hostname和IP对应关系,加快解析速度。3.配置SSH免密码登陆3.1每台服务器上运行:$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa$cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys3.2把各台服务器的~/.ssh/authorized_keys文件内容合并到一个总的authorized_keys文件;3.3把那个总的authorized_keys文件scp到每台服务器,替换原有的authorized_keys文件;3.4互相SSH对方机器,确认SSH登陆不需要密码4.配置各台服务器时间,确保每台服务器时间相同;Hadoop完全分布模式安装过程中还要配置Hadoop。 5.配置hadoop5.1配置conf/hadoop-env.sh文件。配置JAVA_HOME一行,配置正确的路径。5.2配置conf/core-site.xml文件<configuration><property><name>fs.default.name</name><value>hdfs://host:9000</value></property></configuration><configuration><property><name>fs.default.name</name><value>hdfs://host:9000</value></property></configuration>注:这里的host必须改为对应的namenode的hostname5.3配置conf/hdfs-site.xml文件,如果不修改使用默认设置也可以。5.4配置conf/mapred-site.xml文件<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration><configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>注:这里的host必须改为对应的namenode的hostname6.配置conf/slaves和conf/master文件。slaves文件里写datanode的hostname或IP,master里写namenode、secondarynamenode的hostname或IP,每行写一个服务器,以#开头的行视为注释。7.分发hadoop直接通过scp,把hadoop整个目录复制到各台服务器的相同目录即可。8.格式化hadoop的namenode执行命令:$bin/hadoopnamenode-format9.启动hadoop执行命令:$bin/start-all.sh至此,Hadoop完全分布模式安装完毕,通常启动到所有服务器完全识别出来需要一定的时间(我这里是5分钟左右),要耐心等待,在namenode节点上,打开浏览器,输入http://localhost:50070/即可看到整个hadoop情况,JobTracker情况可以看每一个服务器的http://localhost:50030/。3 Hadoop环境搭建JDK的安装:要求必须安装jdk1.5.07以上的版本。3.1 硬件环境我们采用了3台机器来构建,都安装的是RedHat4.1.2-42系统,并且都有一个名为“mingjie“的帐号,如下:主机名称:hdfs1ip:192.168.0.221功能:NameNode,JobTracker主机名称:hdfs2ip:192.168.0.227功能:DataNode,TaskTracker主机名称:hdfs3ip:192.168.0.228功能:DataNode,TaskTracker重点:修改3台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析127.0.0.1localhost192.168.0.37hdfs1192.168.0.43hdfs2192.168.0.53hdfs3 内容来自dedecms3.2 安装java环境每台机器都要安装java环境,我们的路径统一为“/opt/moles/jdk1.6“,并添加到系统环境变量sudovi/etc/profileJAVA_HOME=/opt/moles/jdk1.6PATH=$JAVA_HOME/bin:$PATH:$CATALINA_HOME/binCLASSPATH=$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/tools.jarexportJAVA_HOME3.3 下载系统下载hadoop0.17.1,将hadoop解压到/home/mingjie/,建议最好也将hadoop的目录添加到环境变量里面去:HADOOP_HOME=/home/mingjie/hadoop-0.17.1#这是hadoop的主目录exportHADOOP_HOMEHADOOP_CONF_DIR=$HADOOP_HOME/conf#这是hadoop的配置文件目录exportHADOOP_CONF_DIRHADOOP_LOG_DIR=/home/mingjie/hadoop-0.17.1/log#存放运行日志目录exportHADOOP_LOG_DIRexportPATH=$PATH:$HADOOP_HOME/bin。Hadoop环境搭建过程中还需要安装SSH。3.4 安装ssh,并生成公钥和私钥安装ssh,并生成公钥和私钥.运行ssh-keygen-trsa,根据屏幕提示直接选择“回车”,会在用户目录~/.ssh/产生两个文件,id_rsa,id_rsa.pubcat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys以上配置完成后,执行一下sshlocalhsot,确认你的每台机器都可以使用ssh 织梦内容管理系统3.5 复制SSH的key将master服务器上的authorized_keys的内容加到slave两台机器的authorized_keys文件中。让master也可以不需要密码访问2台slave服务器。Sudo scpauthorized_keyshdfs2:/home/mingjie/.ssh/sudoscpauthorized_keyshdfs3:/home/mingjie/.ssh/ssh hdfs2ssh hdfs33.6 修改主机和从机文件我们要修改hadoop的[conf/masters]、[conf/slaves]这2个文件:Master设置(<HADOOP_HOME>/conf/masters):hdfs1Slave设置(<HADOOP_HOME>/conf/slaves):hdfs2hdfs33.7 修改配置文件修改[conf/hadoop-env.sh]:exportJAVA_HOME=/opt/jdk1.6.0_033.8 修改配置文件修改[conf/hadoop-site.xml],这里只是几个常用的属性配置,有关hadoop的性能优化调整,需要研究hadoop-default.xml。3.9 hadoop的整体环境拷贝然后将hadoop的整体环境拷贝到hdfs2、hdfs3上面去scp-r/home/mingjie/hadoop.0.17.1hdfs2:/home/mingjie/hadoop.0.17.1scp-r/home/mingjie/hadoop.0.17.1hdfs3:/home/mingjie/hadoop.0.17.13.10 名称节点实始化在hdfs1这个namenode上面格式化一个新的分布式文件系统HDFS,就是hadoop-site.xml文件中指定的hadoop.tmp.dir路径<HADOOP_HOME>/bin/hadoopnamenode–format到此大致上就完成了hadoop环境搭建3.11 系统启动与停止启动hadoop:<HADOOP_HOME>/bin/start-all.sh停止hadoop:<HADOOP_HOME>/bin/stop-all.sh说明:(1)执行启动Hadoop进程后,在master服务器会启动3个java进程,分别的NameNode,SecondNameNode,JobTracker,在LOG目录下会产生2个文件,分别对应NameNode的运行日志和JobTracker的运行日志,在slave服务器会启动2个java进程,分别为DataNode,TaskTracker,,在LOG目录下会产生2个文件,分别对应DataNode的运行日志和TaskTracker的运行日志,可以通过查看日志分析hadoop的启动是否正确。(2)通过IE浏览分布式文件系统中的文件访问http://hdfs1:50030可以查看JobTracker的运行状态。访问http://360quan-1:50060可以查看TaskTracker的运行状态。
⑼ 如何在Linux上安装与配置Hadoop
Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX、Windows和Mac OS X系统上也运行良好。不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop。Hadoop的安装非常简单,大家可以在官网上下载到最近的几个版本,在Unix上安装Hadoop的过程与在Linux上安装基本相同,因此下面不会对其进行详细介绍。
在Linux上安装与配置Hadoop
在Linux上安装Hadoop之前,需要先安装两个程序:
1. JDK 1.6或更高版本;
2. SSH(安全外壳协议),推荐安装OpenSSH。
下面简述一下安装这两个程序的原因:
1. Hadoop是用Java开发的,Hadoop的编译及MapRece的运行都需要使用JDK。
2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式,Hadoop会采用与集群相同的处理方式,即依次序启动文件conf/slaves中记载的主机上的进程,只不过伪分布式中salve为localhost(即为自身),所以对于伪分布式Hadoop,SSH一样是必须的。
一、安装JDK 1.6
安装JDK的过程很简单,下面以Ubuntu为例。
(1)下载和安装JDK
确保可以连接到互联网,输入命令:
sudoapt-getinstallsun-java6-jdk
输入密码,确认,然后就可以安装JDK了。
这里先解释一下sudo与apt这两个命令,sudo这个命令允许普通用户执行某些或全部需要root权限命令,它提供了详尽的日志,可以记录下每个用户使用这个命令做了些什么操作;同时sudo也提供了灵活的管理方式,可以限制用户使用命令。sudo的配置文件为/etc/sudoers。
apt的全称为the Advanced Packaging Tool,是Debian计划的一部分,是Ubuntu的软件包管理软件,通过apt安装软件无须考虑软件的依赖关系,可以直接安装所需要的软件,apt会自动下载有依赖关系的包,并按顺序安装,在Ubuntu中安装有apt的一个图形化界面程序synaptic(中文译名为“新立得”),大家如果有兴趣也可以使用这个程序来安装所需要的软件。(如果大家想了解更多,可以查看一下关于Debian计划的资料。)
(2)配置环境变量
输入命令:
sudogedit/etc/profile
输入密码,打开profile文件。
在文件的最下面输入如下内容:
#setJavaEnvironmentexportJAVA_HOME=(你的JDK安装位置,一般为/usr/lib/jvm/java-6-sun)exportCLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"exportPATH="$JAVA_HOME/:$PATH"
这一步的意义是配置环境变量,使你的系统可以找到JDK。
(3)验证JDK是否安装成功
输入命令:
java-version
查看信息:
javaversion"1.6.0_14"Java(TM)SERuntimeEnvironment(build1.6.0_14-b08)JavaHotSpot(TM)ServerVM(build14.0-b16,mixedmode)
二、配置SSH免密码登录
同样以Ubuntu为例,假设用户名为u。
1)确认已经连接上互联网,输入命令
sudoapt-getinstallssh
2)配置为可以无密码登录本机。
首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”,这是一个隐藏文件夹),输入命令:
ls-a/home/u
一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手动创建一个。
接下来,输入命令:
ssh-keygen-tdsa-P''-f~/.ssh/id_dsa
解释一下,ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密钥密语的相关知识这里就不详细介绍了,里面会涉及SSH的一些知识,如果读者有兴趣,可以自行查阅资料。)
在Ubuntu中,~代表当前用户文件夹,这里即/home/u。
这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是SSH的一对私钥和公钥,类似于钥匙及锁,把id_dsa.pub(公钥)追加到授权的key里面去。
输入命令:
cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys
这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys是用于认证的公钥文件。
至此无密码登录本机已设置完毕。
3)验证SSH是否已安装成功,以及是否可以无密码登录本机。
输入命令:
ssh-version
显示结果:
OpenSSH_5.1p1Debian-6ubuntu2,OpenSSL0.9.8g19Oct2007Badescapecharacter'rsion'.
显示SSH已经安装成功了。
输入命令:
sshlocalhost
会有如下显示:
Theauthenticityofhost'localhost(::1)'can'tbeestablished.RSAkeyfingerprintis8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77.(yes/no)?yesWarning:Permanentlyadded'localhost'(RSA)tothelistofknownhosts.Linuxmaster2.6.31-14-generic#48-UbuntuSMPFriOct1614:04:26UTC2009i686,pleasevisit:http://help.ubuntu.com/Lastlogin:MonOct1817:12:402010frommaster[email protected]:~$
这说明已经安装成功,第一次登录时会询问你是否继续链接,输入yes即可进入。
实际上,在Hadoop的安装过程中,是否无密码登录是无关紧要的,但是如果不配置无密码登录,每次启动Hadoop,都需要输入密码以登录到每台机器的DataNode上,考虑到一般的Hadoop集群动辄数百台或上千台机器,因此一般来说都会配置SSH的无密码登录。
三、安装并运行Hadoop
介绍Hadoop的安装之前,先介绍一下Hadoop对各个节点的角色定义。
Hadoop分别从三个角度将主机划分为两种角色。第一,划分为master和slave,即主人与奴隶;第二,从HDFS的角度,将主机划分为NameNode和DataNode(在分布式文件系统中,目录的管理很重要,管理目录的就相当于主人,而NameNode就是目录管理者);第三,从MapRece的角度,将主机划分为JobTracker和TaskTracker(一个job经常被划分为多个task,从这个角度不难理解它们之间的关系)。
Hadoop有官方发行版与cloudera版,其中cloudera版是Hadoop的商用版本,这里先介绍Hadoop官方发行版的安装方法。
Hadoop有三种运行方式:单节点方式、单机伪分布方式与集群方式。乍看之下,前两种方式并不能体现云计算的优势,在实际应用中并没有什么意义,但是在程序的测试与调试过程中,它们还是很有意义的。
你可以通过以下地址获得Hadoop的官方发行版,下载Hadoop-0.20.2.tar.gz并将其解压,这里会解压到用户目录下,一般为:/home/[你的用户名]/。
单节点方式配置:
安装单节点的Hadoop无须配置,在这种方式下,Hadoop被认为是一个单独的Java进程,这种方式经常用来调试。
伪分布式配置:
你可以把伪分布式的Hadoop看做是只有一个节点的集群,在这个集群中,这个节点既是master,也是slave;既是NameNode也是DataNode;既是JobTracker,也是TaskTracker。
伪分布式的配置过程也很简单,只需要修改几个文件,如下所示。
进入conf文件夹,修改配置文件:
Hadoop-env.sh:exportJAVA_HOME=“你的JDK安装地址”
指定JDK的安装位置:
conf/core-site.xml:<configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property></configuration>
这是Hadoop核心的配置文件,这里配置的是HDFS的地址和端口号。
conf/hdfs-site.xml:<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>
这是Hadoop中HDFS的配置,配置的备份方式默认为3,在单机版的Hadoop中,需要将其改为1。
conf/mapred-site.xml:<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>
这是Hadoop中MapRece的配置文件,配置的是JobTracker的地址和端口。
需要注意的是,如果安装的是0.20之前的版本,那么只有一个配置文件,即为Hadoop-site.xml。
接下来,在启动Hadoop前,需格式化Hadoop的文件系统HDFS(这点与Windows是一样的,重新分区后的卷总是需要格式化的)。进入Hadoop文件夹,输入下面的命令:
bin/HadoopNameNode-format
格式化文件系统,接下来启动Hadoop。
输入命令:
bin/start-all.sh(全部启动)
最后,验证Hadoop是否安装成功。
打开浏览器,分别输入网址:
http://localhost:50030(MapRece的Web页面)http://localhost:50070(HDFS的Web页面)
如果都能查看,说明Hadoop已经安装成功。
对于Hadoop来说,安装MapRece及HDFS都是必须的,但是如果有必要,你依然可以只启动HDFS(start-dfs.sh)或MapRece(start-mapred.sh)。
⑽ 怎样修改Cloudera hadoop里面的默认配置
配置文件地址: Hadoop: /etc/hadoop/conf hbase: /etc/hadoop/conf hive: /etc/hive/conf 使用cloudera manager web UI 修改hadoop .xml文件属性方法: For Cloudera the best way to push this configuration to the nodes is to use the Clou…