资料下载网
首页 计算机 考试教辅
Hadoop安装配置手册 pdf电子书免费下载,百度云
首页 > 计算机 > 计算机网络/服务器 > Hadoop安装配置手册 pdf电子书免费下载,百度云

《Hadoop安装配置手册》pdf电子书免费下载


下载方式一:

百度网盘下载地址:https://pan.baidu.com/s/1s3BFVyiUWvIlw47k9uEseQ
百度网盘密码:1111

下载方式二:

http://ziliaoshare.cn/Download/ad_123533_pd_HadoopAZPZSC.zip

 


Hadoop安装配置手册

作者:empty

出版社:empty

《Hadoop安装配置手册》介绍

1前言

Hadoop是Apache Lucene下的一个了项目, 它最初是从Nut h项目中分离出来专门负责分布式存储以及分布式运算的项目, 简单地说, Had oop是一个实现可靠、可扩展、分布式运算的开源软件平台, 它也是Google著名的分布式文件系统Google FileSystem和分布式并行开发框架Map Reduce的开源版本。Had oop出三个相对独立, 而又相辅相成的软件组成, 包括:

(I) Had oop Core, 是Had oop的核心, 提供了一个分布式文件系统(HDFS) , 并支持Map Reduce分布式计算框架:(2) H base, 构造在Had oop Core之上, 提供一个可扩展、分布式的数据库系统:(3) ZooKeeper, 是个高可用、高可靠的协同工作系统, 分布式程序可以用ZooKeeper保存更新关键共享状态。

Hadoop的官方网址是http/had oop.apache.org.它拥有三个不同的maig list.分别是Users(普通用户) 、Developers(有兴趣参加Had oop开发的人) 和Commits(关注Had oop版本变化信息的人》,可以通过http:/hadoopapache.org/core/malinglists.html订锐。想了解更多Had oop的信息, 可以通过访问其Wiki网页http://wikiapache.org/hadoop来达到目的。Had oop支持的平台包括Linux和Windows(Windows需安装Cygwin) , 目前己知在UnixBSD和MacOS/X上也能运行.但官方说法是, GNU/Linux是一个经过验证的开发和生产平台, 而Win 32上尚未经过严格的测试, 因此可以做开发平台, 但不推荐作为生产平台,我们以下的安装与配置均基丁Linux平台, 而不再针对Windows进行说明, 具体来说, 我们采用Ubuntu 7发布包, 内核版本为2.6.24-19.gcc版本为4.2.3.如果读者的平台基于其他Linux发布包, 请参考本手册井结合所用系统的具体情况进行调整,Had oop是用Java语言开发的, 它本身内在支持基于Java开发的程序, 但通过特定的接口(Streaming,PIPES等) , 它也支持用其他语言(C/C++, Python, PHP等) 开发的程序。

2获取Hadoop

Hadoop的下载地址是http://www.apache.org/dyn/closercgi/hadoop/core/。截止到2008-8-26, Had oop的最新版本是0.18.0。我们以下的说明基于此前的一个稳定版本0.17.1完成, 如果您获取的Had oop版本不同, 请参考该版本的相关说明进行调整。

3安装Hadoop

3.1先决条件

Hadoop的安装与运行需要依粮以下程序, 在安装Had oop之前, 请确保在计算机上已经安装了以下软件:() JavaTM15x及以上版本, 推荐Sun公司的官方版本(http:/wwwjava.com) , 必须安装。下载时请注意选择对应于机器配置的正确的版本(操作系统、32/64位);(2) ssh.必须安装, 且每次系统启动时sshd服务也必须白动启动.Ubuntu用户可以用以下命令自动下载并安装:其他Linux版本的用户可以到http:/www.openssh.com/porable.html下载openssh并按照和关说明安装:(3) 如果运行在Windows平台上, 则必须安装Cygwin(从http:/www.eygwin.com/下载) ,安装好Cygwin之后还需要安装openssh包。需要注意的是, 由于Had oop需要通过ssh服务在各个节点之间登录并运行服务, 因此必须确保安装Had oop的各个节点之间的网络畅通, 网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析(包括它自己) 。一个简单的测试方法是PING主机名。为便于说明,我们以下面的网络环境为例进行说明:Had oop集群由3个节点(同构、异构均可) 构成, 它们之间通过以太网进行通讯, 图1中每个节点下部的标签为该节点的主机名,其对应的IP地址如表1所示:主机名

我们需要在每台机器上PING所有二台机器, 例如在node 1上ping no del.ping node 2和pingnode 3.如果能ping通, 则表示no del到node 2和node 3网络畅通。如果ping不通, 则需要更新no del上的主机名文件。具体做法是, 以root身份打开/etc/hosts文件, 在里面添加以下几行:192.168.1.1nodel192.168.1.12node 2192.168.1.13node 3node 2和node 3也需要按照相同的方法进行设置。

3.2安装本手册的目标是为构造一个运行在多台机器上的Had oop集群提供指南, 因此所述的安装均面向多台机器, 在单台机器上安装Had oop非常简单, 在获取Had oop之后(通常是一个压缩包) , 解压缩到特定目录即可, 由于Had oop是通过ssh服务对多个节点进行管理和同步,因此要求这些节点具有一个相同的帐号, 面且Had oop的部署目录结构都相同, 为实现此要求, 我们按照以下方式安装Had oop:(1)在每一台机器上创建一个相同的帐号(以下以map red为例进行说明) , 这个帐号的

表1主机名与对应的IP地址默认主目录相同, 如/home/map red/; 为了便于用map red帐号修改系统设置和访问系统文件, 我们推荐把map red也设为sudoers(有root权限的用户) , 具体做法是用已有的sudo er登录系统, 执行sudo visu do-flet e/sudoers, 并在此文件中添加以下一行:map red ALL=(ALL) ALL保存并退出即可;以map red帐号登录到每个节点上, 在map red主目录中为Had oop创建目录had oop install, 即/home/map red/had oop install, 所有的had oop版本放在这个目录中:把had oop-0.17.1压缩包解压到had oop install中, 为了便于以后丁级, 一种值得推荐的做法是建议一个链接指向当前所用的Had oop版本, 不妨就设为had oop:按照以上步骤完成设置之后, 所有的配置文件都在/had oop/conf/目录中, 所有的可执行程序都在/had oop/bin目录中, 但是had oop的配置文件和had oop的安装目录是放在一起的,这样一旦日后升级,所有的配置文件都会被覆盖,因此建议将配置文件与安装目录分高,一种比较好的方法就是建立一个存放配置文件的目录,例如/home/db rg/Had oop Instal/had oop-config/,然后将/had oop/conf/日录中的had oop_site.xml, masters, slaves, had oop_env.sh四个文件拷贝到had oop-config/F录巾:

设置环境变量SHADO OP CONFDIR指向存放配置文件的目录, 为保证用广每次登录到系统中都自动设置此环境变量, 需要在/home l map red/bash re和/ete/prole两个文件中都添加一行命令:export HAD OOP_CONF_DIR-/home/map red/had oop install/had oop_config这种配置方法使得had oop的配置文件与安装目录分离, 并通过设定个链接指向当前使用的Had oop版本, 人大降低了人工部署和维护Had oop的复杂度和工作量:

4配置Hadoop

Had oop是master/slave结构.在个Had oop集群中, 有个Name node(相当于master)和若干个Data node(相当于slave) , 其中Name node通过ssh服务来启动和停止各个Data node上的各种守护进程。因此ssh的设置是Had oop部署中很重要的一环。显然, 不可能要求用户每次在节点之间执行指令时输入密码, 因此我们需要配置ssh使之采用无密码公钥认证的方式来登录。

我们设定no del为主节点(Name node) , node 2和node 3是从节点(Data node) , no del要调度node 2和node 3上的程序, 需要主动发起ssh连接到node 2和node 3.对于ssh服务而言, node 1是客户端, node 2和node 3是服务端。要实现无密码公钥认证, 需要在node 1首先保证所有的机器都安装了ssh服务器, 并启动了sshd服务.以前述Had oop集群为上生成一个密钥对, 包括一个公钥和一个私钥, 而后将公钉复制到node 2和node 3上。当no del通过ssh连接node 2时, node 2就会生成一个随机数并用no del的公钥对随机数进行加密, 并发送给no del.no del收到加密数之后再用私钥进行解密, 并将解密数回传给node 2,node 2确认解密数无误之后就允许node 1进行连接了, 这就是个公钥认证过程, 其问不需要用户手工输入密码。具体步骤是:在no del上生成密码对, 执行以下命令:map red@no del:-S ssh-keygen-trs a此命令为no del上的用户map red生成密钥对, 当询问保存路径时回车采用默认路径即可, 当提示要为密钥输入passphrase是回车采用空密码, 此命令执行完毕生成一对密钥文件id_rsa(私针) 和id_rsa.pub(公钥) , 默认存储在/home/map red/.ssh下;把生成的idr as.pub文件改名为authorized_keys, 井复制到每台机器(包括本机)的/home/map red/ssh/下.如果机器上已经有authorized keys文件, 则把id_rsa.pub中的内容直接复制到authorized keys文件尾; 如果不存在, 则直接复制即可,假设各台机器上均没有authorized_keys, 则对于no del, 执行cp/home/map red/.ssh/id_rsa.pub/home/map red/.ssh/authorized_keys对于node 2(node 3与node 2相同) , 执行map red@node 2:-S mkdir/home/map red/.sshmap red@no del:~/.sshSsepauthorizedkeysnode2:/home/mapred/.ssh/修改authorized_keys的访问权限, 只有所有者对authorized_keys有读写权限,其他人不允许有写权限, 否则ssh不能正确工作, 在node 2和node 3上执行以下命令map red包node 2:~/.sshSchmod 644 authorized_keys以上命令执行完之后, , ssh目录的内容应该如下图2所示(读者所用的帐号和节点名可能会有所不同):

敲入yes并回车即可, 此后在从no del向node 2发起ssh连接时将不再需要输入任何信息。从每个节点向包括它自己在内的所有节点进行以上ssh连接测试,并在出现以上提示信息时输入yes, 这样Had oop通过ssh在各个节点之间调度时将不会出现要求用户输入的情形。打开node 1节点的/home/map red/had oop install had oop-config/had oop_env.sh,修改其中的JAVA_HOME和HAD OOP_HOME变量, 其中JAVA_HOME是Java的根目录(即使用Java安装包安装好Java之后bin日录的父目录) ,HAD OOP_HOME是Had oop的根目录(即bin目录的父目录, 如果不做手工修改,那么这也是默认设置),在我们的例了中采用如下设置:#安装的Java版本为1.6export JAVA_HOME=/home/map red jr el.6.0_ 07export HAD OOP HOME-/home/map red/had oop install/had oop修改no del节点的/home/map red/had oop install had oop-config/masters, 指定Name node主机名, 在我们的例子中, masters文件的内容是no dl修改no del节点的/home/map red/had oop in stll had oop-coni/slaves, 指定Data node从机名, 在我们的例子中, saves文件的内容是node 2node 3修改node 1节点的/home/map red had oop install had oop-conf had oop-it.xml文件, 这个文件指定了Had oop的一些运行时属性, 是非常关键的配置文件,但需要注意, 同目录下的had oop-default.xml不允许直接修改。通常情况下,had oop-site xml按照下图所示进行设置即可。其中各个属性的含义均在 description>字段中进行说明.如果需要了解更多属性的含义及其属性取值范围, 请参考had oop/docs下的cluster_setup.pdf文件。


《Hadoop安装配置手册》目录

目录

1前言.....

2获取Had oop......

3安装Had oop.......

4配置Had oop.....

5运行简单的例子....

6补充说明........

7推荐资源.........

8参考文献.........

计算机


python
AI人工智能
javascript
计算机网络/服务器
数据库技术
计算机F

考试教辅


考研考博
英语四六级

沪ICP备18046276号-5