Day 5762 有关 Hadoop 集群 Datanode 系统盘损毁后重建环境的笔记

身边有一套没什么人用的系统，后端采用了 Hadoop 一式三份存储数据文件。

某日，Ambari 报其中一台 Datanode 的 Heartbeat lost，且不论通过任何方式远程连接均报 Connect refused，多次尝试无果后前往机房，发现硬盘 0 闪红灯，经核对厂商说明，并重新启动服务器看阵列卡报告，确认该硬盘已故障掉盘。

由于集群尚有另外两台 Datanode 在线，且重要文件亦有本地备份，决定采取重装系统并重新同步所有文件的形式进行维护。

本文是给自己的笔记，不是教程，由于本文记述的是摸索过程，如果您有相似的情况需要处理，请不要直接按照本文步骤进行操作。

1、替换损毁的硬盘

关机后撤换有问题的硬盘，然后比照其它 Datanode 的阵列配置重新组装阵列即可，很简单不再赘述。

2、重装操作系统

节点上之前安装的是 CentOS 6.7，尽管是现在已经过时的操作系统，为了保持与原有环境一致，仍然安装了该版本。

安装过程基本一路回车，但由于对于 Linux 的 LVM 机制不熟悉，采用了默认的在磁盘 0 上 root 和 home 分区分离的分区方式（当时还准备保留磁盘 1 和 2 上的分区），该配置在之后的配置过程中引发了问题，后述。

安装过程中需要将主机名配置为节点的内网域名（本例为 dn3.hadoopcluster.com），否则在后面的配置过程中安装 Hadoop 组件时会造成自动配置不正确，本次因缺乏经验就造成了这个问题，后述。

3、配置网络

修改 /etc/sysconfig/network-scripts/ 下对应网卡的配置文件，如：第一块网卡通常被识别为 eth0，则修改该目录下的 ifcfg-eth0 文件。

追加内容如下：

修改 ONBOOT= 为 yes

修改 BOOTPROTO= 为 static（本机为静态 IP 的情况）

新增 IPADDR=IP地址、NETMASK=为子网掩码、GATEWAY=为网关、DNS1=、DNS2=为主、辅DNS

可选：新增 IPV6INIT=no 关闭 IPv6，在仅有 IPv4 的环境下减少没有必要的的 IPv6 地址产生的信息

如果在上面选择了关闭 IPv6，还需要修改以下位置：

修改 /etc/sysctl.conf 增加 net.ipv6.conf.all.disable_ipv6 = 1

修改 /etc/sysconfig/network 增加 NETWORKING_IPV6=no

修改完成后可以重启生效，也可以分别使用以下两条指令立刻生效：

重启网络服务使 IP 配置生效：service network restart

使 IPv6 的相关修改生效：sysctl -p

4、设置国内源

安装完成后建议将 yum 源设置为国内的地址，以加快软件包的安装与更新的速度。

此处以清华大学 TUNA 源为例，截至本文成文为止，CentOS 6.7 已属于归档的 vault 源，依照 TUNA 提供的帮助信息，修改方法如下：

（1）备份原有文件：cp -r /etc/yum.repos.d/ /etc/yum.repos.d.bak/

（2）修改 CentOS-Base.repo（其它 repo 文件默认没有启用，可不修改）：

在所有的 mirrorlist= 前面加上 # 注释掉

将所有的 baseurl= 前面的 # 去掉注释

（6.7 为本例的系统版本号，参考时请按自己的实际情况修改）修改所有 baseurl 行中的 mirror.centos.org/centos/$releasever 为 mirrors.tuna.tsinghua.edu.cn/centos-vault/6.7

（3）更新 yum 缓存：yum makecache

5、安装 JDK，及其它准备工作

将从其它 Datanode 上复制来的 JDK 压缩包放在 /usr/soft 目录下，进行解压缩，并增加执行权限：

cd /usr/soft

tar -zxvf jdk-7u79-linux-x64.tar.gz

chmod -R 755 jdk1.7.0_79/

然后配置 JDK 的环境变量，在 /etc/profile 中新增以下内容：

export JAVA_HOME=/usr/soft/jdk1.7.0_79

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

并执行以下命令使环境变量生效：

source /etc/profile

完成后执行以下指令，确认是否安装成功：

java -version

输出 Java 版本表示安装成功。

执行以下命令禁用透明大页（Hadoop 集群要求）：

echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled

如有需要，在做好安全防护的前提下，关闭防火墙：

/etc/init.d/iptables stop #此命令关闭防火墙

chkconfig iptables off #关闭防火墙的开机启动

6、恢复损毁的 Datanode 节点与其它节点之间的互访

修改 /etc/hosts 添加到其它机器的访问：

192.168.0.100 nn1.hadoopcluster.com

192.168.0.101 nn2.hadoopcluster.com

192.168.0.103 dn1.hadoopcluster.com

192.168.0.104 dn2.hadoopcluster.com

192.168.0.105 dn3.hadoopcluster.com #本机 IP，也是本次要修复的 Datanode 节点

安装 OpenSSH-Server：

yum install openssh-server -y

生成密钥对：

mkdir /root/.ssh

cd /root/.ssh

ssh-keygen -t rsa //一路回车即可

此时下一步原本应该是将各个节点的公钥（/root/.ssh/id_rsa.pub）发送到主 Namenode 节点（nn1.hadoopcluster.com），但由于除了 dn3 上的机器上还保留着 dn3 崩溃之前的 SSH 公钥信息，且 sshd 默认情况下开启了 strict 模式（/etc/ssh/sshd_config 中设置了 StrictHostKeyChecking yes），会造成其它节点访问 dn2 时因 host key 验证失败而无法连接，例如，在做出下面修改的之前，尝试在其余节点上使用 ssh dn3.hadoopcluster.com 会出现以下提示：

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!

Someone could be eavesdropping on you right now (man-in-the-middle attack)!

It is also possible that a host key has just been changed.

The fingerprint for the ECDSA key sent by the remote host is SHA256:HDjXJvu0VYXWF+SKMZjSGn4FQmg/+w6eV9ljJvIXpx0.

Please contact your system administrator.

Add correct host key in /root/.ssh/known_hosts to get rid of this message.

Offending ECDSA key in /root/.ssh/known_hosts:5

ECDSA host key for dn3.hadoopcluster.com has changed and you have requested strict checking.

Host key verification failed.

所以需要先去各个机器上删掉已知主机公钥库中的 dn3 公钥：

首先备份 /root/.ssh/known_hosts

然后删除中文件原来 dn3.hadoopcluster.com 的一整行，保存即可（也可使用 ssh-keygen -R dn3.hadoopcluster.com）

以上操作需要在 nn1、nn2、dn1、dn2 上分别执行

接下来在 nn1 上拉取 dn3 的公钥到 ~/.ssh/（可能需要输入 dn3 的 root 账户和密码）：

cd ~/.ssh/

scp [email protected]:~/.ssh/id_rsa.pub id_rsa_dn3.pub

将所有公钥集合为已认证公钥库 authorized_keys，并备份原来的文件以防万一：

# 注意此时已保存的公钥文件名均为 id_rsa_*.pub 的格式，包括 nn1 本身的）

cp authorized_keys authorized_keys.bak

cat id_rsa_*.pub >> ~/.ssh/authorized_keys

然后将认证库发送到其它机器上：

scp ~/.ssh/authorized_keys [email protected]

scp ~/.ssh/authorized_keys [email protected]

scp ~/.ssh/authorized_keys [email protected]

最后，重建其它节点到 DN3 的连通性：

ssh dn3.hadoopcluster.com #需要在所有机器上依次执行一遍，包括 dn3 自己

# 虽然也可以在 nn1 上连接一次然后将 known_hosts 发布到其它各主机上，但为求稳妥，最好是实际去各台机器上连接一遍

出现以下提示时输入 yes 将 dn3 的新 host key 加入本地的 known_hosts：

The authencity of host ‘dn3.hadoopcluster.com (192.168.0.105)’ can’t be established.

ECDSA key fingerprint is SHA256:HDjXJvu0VYXWF+SKMZjSGn4FQmg/+w6eV9ljJvIXpx0.

Are you sure you want to continue connecting (yes/no): # 输入yes

7、使用 Ambari 为新的 Datanode 安装 Hadoop 软件

本例中 Ambari 安装于 nn1，由于没有保留截图，简述一下步骤：

（1）在 Hosts 中点击 Actions – Add hosts

（2）向导第一步中，Target hosts 填写要安装软件的 FQDN（不能填写 IP，该域名不需要在公网能解析，本例为 dn3.hadoopcluster.com），并在 Host Registration Information 上传要安装软件的主机 SSH 私钥（~/.ssh/id_rsa，多个主机将多个私钥文件拼接起来即可）。SSH User account 和 SSH Port number 无特殊情况可以保留原样。

（3）向导第二步会检查环境，有问题会进行提示，进行对应修复即可。

（4）向导第三步中，勾选安装 Datanode、Zookeeper 和 Ambari Metrics

（5）等待完成安装即可。

8、小插曲：停下就再也醒不过来的 Datanode

完成上述步骤后，发现 Datanode 迟迟不开始同步（实际原因后述），尝试重启 Datanode 服务但是不成功，通过查看日志（/var/log/hadoop/hdfs/hadoop-hdfs-datanode-dn3.hadoopcluster.com.log）发现如下信息：

java.net.BindException: Problem binding to [0.0.0.0:50010] java.net.BindException: Address already in use; For more details see: http://wiki.apache.org/hadoop/BindException

但如果按照网上搜出来的方法，使用 netstat -tunlp|grep 50010 尝试找出占用 TCP 50010 端口的进程的话，会发现没有任何输出，而使用 netstat -n|grep 50010 查看的话，会发现一个处于 TIME_WAIT 状态的在 50010 端口上的连接。

通过查找资料，在 /etc/sysctl.conf 中增加以下参数可以缓解此问题：

net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1

其中第一行用于启用 TCP 连接重用，允许内核重用处于 TIME_WAIT 状态的连接；第二行用于启用 TIME_WAIT 连接的尽快回收（注：本案例处于比较简单的网络布局下，请不要在 NAT 复杂环境下启用该参数）。

修改完成后重启（sysctl -p 可以立刻生效但之前的 TIME_WAIT 连接仍在），现在 Datanode 重启基本不会遇到 Address already in use 的情况了。

9、扩充 / 分区

完成上述安装步骤后，按说只需要等待 Hadoop 自动同步所有文件即可，但过了一天 Under replicated blocks 仍然有好几万。

经过对多处参数的查看，最后终于在 dn3 的 Datanode web 界面（dn3.hadoopcluster.com:50070）上发现一处端倪：Capacity Left 一直是 0 B。

经查看配置文件，得知默认的 Hadoop 数据目录 /hadoop/hdfs/data 存在于 / 下（df -h /hadoop 查看所在分区），但由于安装系统时将 / 和 /home 进行了划分（实际应该采取全盘 / 的分区形式），导致 / 目录只有几百 MB 的容量，在 Hadoop 开始节点同步后很快被填满，导致同步无法继续进行。

由于具体修改的过程没有留下截图或日志，故以下简单记录所进行的操作：

（1）由于第2、3块磁盘在阵列卡中被配置为一块虚拟磁盘，在当前系统中被识别为 /dev/sdb1，遂尝试挂载（mkdir /mnt/sdb1 && mount /dev/sdb1 /mnt/sdb1）查看内容，出现类似如下提示：

mount: unknown filesystem type ‘LVM2_member’

经搜索，为 CentOS 6.7 中默认选项未安装 lvm2 所致，使用以下指令安装：

yum install lvm2

（2）安装后使用 pvs 查看物理卷情况，发现 /dev/sdb1 从属于丢失的VG：

Couldn’t find device with uuid ’56ogEk-OzLS-cKBc-z9vJ-kP65-DUBI-hwZPSu’.

（3）尝试使用 pvcreate –uuid 丢失的设备UUID /dev/sdc –restorefile /etc/lvm/backup/原来的vg名称 无效，因为 restorefile 参数需要指向vg元数据备份文件，而这个文件已经随着系统盘损毁一并丢失了。

（4）最后放弃抢救旧的 vg，删除失效的 vg，并将现有的 vg 扩展到 sdb1 上（此时由于参考某些教程，还没有注意到 /hadoop 不在 /home 下而在 / 下）：

vgremove 旧的vg名称 –removemissing #删除旧的vg

vgextend 当前系统所在vg名称 /dev/sdb1 #将现有vg扩展到sdb1上

lvextend -l +100%FREE /dev/当前系统所在vg名称/lv_home #将扩展后的vg可用空间全部分配给lv_home

resize2fs -p -F /dev/当前系统所在vg名称/lv_home #分区扩展后，在线扩展文件系统

（5）后来终于意识到 /hadoop 在 / 下，执行了以下操作删除 /home 并将可用空间分配给 /：

首先去 Ambari 中停止所有在 DN3 上的服务

tar cvf /tmp/home.tar /home #备份 /home 中的内容，完成后将 home.tar 下载到本地备用

umount /home #卸载 /home

编辑 /etc/fstab 文件，将其中原有挂载 home 分区的行加上 # 注释掉，避免下次重启后查找不存在的 home 分区

lvremove /dev/mapper/当前系统所在vg名称下的lv_home分区（如vg_hadoopdn3-lv_home）#删除旧的home逻辑卷

lvextend -l +100%FREE /dev/mapper/当前系统所在vg名称下的lv_root分区（如vg_hadoopdn3-lv_root）#将可用空间全部扩展给/

resize2fs /dev/mapper/当前系统所在vg名称下的lv_root分区（如vg_hadoopdn3-lv_root）#扩充文件系统

如有必要，使用刚刚备份的文件恢复 /home 目录下的文件

去 Ambari 中重启服务

10、总结

经过以上一通折腾，损毁的 DN3 节点终于重新上线，经过大约一周的重新同步，Under replicated blocks 清零，系统恢复到部分损毁之前的情况。

以上是本人在乙方提供的说明书只提及了如何通过 Ambari 进行 Hadoop 软件安装的情况下对 Hadoop datanode 损毁尝试恢复的笔记，中间绕了不少弯子，幸而最后成功解决了，可喜可贺。

再次提醒：本文是笔记，不是教程，请勿逐步照做。同时由于本人并非专业运维，且本文成文间隔时间较长，部分步骤肯定不是最优解，仅供参考。

发表回复 取消回复

发表回复取消回复