大数据之Zookeeper（进程管理）

1、概述zookeeper是一个开源的分布式的，为分布式框架提供协调服务的项目。从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，负责存储和管理较为重要的数据，然后接受观察者的注册，一旦数据状态发生变化，zookeeper就将负责通知已经在zookeeper上注册的观察者（客户端）作出相同的反应。特点：zookeeper：一个领导者（leader），多个跟随者（follow）组成

独创之上

2104人浏览 · 2021-12-30 22:43:00

独创之上 · 2021-12-30 22:43:00 发布

1、概述

zookeeper是一个开源的分布式的，为分布式框架提供协调服务的项目。从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，负责存储和管理较为重要的数据，然后接受观察者的注册，一旦数据状态发生变化，zookeeper就将负责通知已经在zookeeper上注册的观察者（客户端）作出相同的反应。

特点：zookeeper：一个领导者（leader），多个跟随者（follow）组成的集群；集群中只要有半数以上节点存活，zookeeper集群就能正常服务，所以一般安装奇数台服务器；全局数据一致：每个server保存一份相同的数据副本，Client无论接到哪个server，数据都是一致的；更新请求顺序执行，来自同一个client的更新请求按其发送顺序依次执行；数据更新原子性，一次数据更新要么成功，要么失败；实时性，在一定时间范围内，client能读到最新数据。

数据结构：树形结构

应用场景：统一命名服务（IP地址不容易记住，域名容易记住）

统一配置管理（一般要求一个集群中，所有的节点的配置信息是一致的，可将配置信息写入zookeeper的一个znode上，各个客户端服务器监听这个znode，一旦数据被修改，zookeeper将通知各个客户端服务器）

统一集群管理：分布式环境下，实时掌握每个节点的状态是必要的，zookeeper可以实现实时监控节点状态变化。

服务器节点动态上下线：客户端实时洞察到服务器上下线的变化

软负载均衡：在zookeeper中记录每台服务器的访问数，让访问数最少的服务器去处理最新的客户端请求。

2、zookeeper的本地安装

a、安装前的环境准备：JDK、zookeeper文件包

b、配置修改：zoo_sample.cfg改名（防止默认路径的访问）为zoo.cfg，并在zoo.cfg文件中修改dataDir路径，并在/opt/module/zookeeper-3.5.7/目录上创建zkData文件夹。

dataDir=/opt/module/zookeeper-3.5.7/zkData

c、启动zookeeper：bin/zkServer.sh start ;查看状态：bin/zkServer.sh status；启动客户端：bin/zkCli.sh ；退出客户端：quit

注：zoo.cfg中的配置参数解读

·tickTime = 2000：通信心跳时间，Zookeeper服务器与客户端心跳时间，单位毫秒

·initLimit=10：LF初始通信时限

·syncLimit=5：LF同步通信时限，Leader和Follower之间通信时间如果超过syncLimit * tickTime，Leader认为Follwer死掉，从服务器列表中删除Follwer。

·dataDir：保存zookeeper中的数据（：默认的tmp目录，容易被Linux系统定期删除，所以一般不用默认的tmp目录。）

·clientPort=2181：客户端连接端口，通常不做修改。

3、zookeeper集群操作

a、首先在hadoop102、hadoop103、hadoop104上部署zookeeper，hadoop102上配置在分发；在zoo.cfg文件中配置集群的服务器地址

#######################cluster##########################
server.2=hadoop102:2888:3888
server.3=hadoop103:2888:3888
server.4=hadoop104:2888:3888

b、zookeeper集群配置自动启动停止脚本，在home的bin目录下创建脚本vim zk.sh，增加脚本执行权限chmod +777 zk.sh；集群启动和停止命令：zk.sh start ;zk.sh stop .

#!/bin/bash
case $1 in
"start"){
for i in hadoop102 hadoop103 hadoop104
do
 echo ---------- zookeeper $i 启动 ------------
ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh 
start"
done
};;
"stop"){
for i in hadoop102 hadoop103 hadoop104
do
 echo ---------- zookeeper $i 停止 ------------ 
ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh 
stop"
done
};;
"status"){
for i in hadoop102 hadoop103 hadoop104
do
 echo ---------- zookeeper $i 状态 ------------ 
ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh 
status"
done
};;
esac

c、客户端命令操作：启动客户端：bin/zkCli.sh -server hadoop102:2181；显示zookeeper中所有节点：ls -s / ；节点删除：delete /节点名；删除节点下所有数据：deleteall /节点名；

3.1 zookeeper的选举机制

1、zookeeper第一次启动

选举详细步骤：（1）服务器1启动，发起一次选举。服务器1投自己一票。此时服务器1票数一票，不够半数以上（3票），选举无法完成，服务器1状态保持为 LOOKING；

（2）服务器2启动，再发起一次选举。服务器1和2分别投自己一票并交换选票信息：此时服务器1发现服务器2的myid比自己目前投票推举的（服务器1）大，更改选票为推举服务器2。此时服务器1票数0票，服务器2票数2票，没有半数以上结果，选举无法完成，服务器1，2状态保持LOOKING

（3）服务器3启动，发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果：服务器1为0票，服务器2为0票，服务器3为3票。此时服务器3的票数已经超过半数，服务器3当选Leader。服务器1，2更改状态为FOLLOWING，服务器3更改状态为LEADING； LOOKING LOOKING 1 0 1 2 0 3

（4）服务器4启动，发起一次选举。此时服务器1，2，3已经不是LOOKING状态，不会更改选票信息。交换选票信息结果：服务器3为3票，服务器4为 1票。此时服务器4服从多数，更改选票信息为服务器3，并更改状态为FOLLOWING；

（5）服务器5启动，同4一样当小弟。

2、zookeeper选举机制（不是第一次启动）

选举详细步骤：（1）当ZooKeeper集群中的一台服务器出现以下两种情况之一时，就会开始进入Leader选举：

• 服务器初始化启动。

• 服务器运行期间无法和Leader保持连接。

（2）而当一台机器进入Leader选举流程时，当前集群也可能会处于以下两种状态：

• 集群中本来就已经存在一个Leader。

对于第一种已经存在Leader的情况，机器试图去选举Leader时，会被告知当前服务器的Leader信息，对于该机器来说，仅仅需要和Leader机器建立连接，并进行状态同步即可。

• 集群中确实不存在Leader。

假设ZooKeeper由5台服务器组成，SID分别为1、2、3、4、5，ZXID分别为8、8、8、7、7，并且此时SID为3的服务器是Leader。某一时刻， 3和5服务器出现故障，因此开始进行Leader选举。（EPOCH，ZXID，SID ）（EPOCH，ZXID，SID ）（EPOCH，ZXID，SID）

SID为1、2、4的机器投票情况：（1，8，1）（1，8，2）（1，7，4）

3.2 zookeeper节点

创建普通节点：create /sanguo "diaochao"；获取节点的值：get -s /sanguo ;

创建带序号的节点（永久节点+序号）：先创建一个普通根节点，再创建带序号节点：create -s /sanguo/weiguo/zhangliao "zhangliao"；

创建短暂节点（短暂节点+不带序号/带序号）：create -e /sanguo/wuguo "zhouyu"；create -e -s /sanguo/wuguo "zhouyu"

修改节点数据：set /sanguo/weiguo "simayi"

3.3 监听器原理

客户端注册监听它关心的目录节点，当目录节点发生变化（数据改变、节点删除、子目录节点增加删除）时，ZooKeeper 会通知客户端。监听机制保证 ZooKeeper 保存的任何的数据的任何改变都能快速的响应到监听了该节点的应用程序。

a、节点的值变化监听：在hadoop104上注册监听某一节点数据变化：get -w /sanguo 在hadoop103 主机上修改/sanguo节点数据：set /sanguo "xisi"；观察hadoop104上的数据变化的监听。注：在hadoop103再多次修改/sanguo的值，hadoop104上不会再收到监听。因为注册一次，只能监听一次。想再次监听，需要再次注册。

b、节点的子节点变化监听（路径变化）：在 hadoop104 主机上注册监听/sanguo 节点的子节点变化：ls -w /sanguo ；在 hadoop103 主机/sanguo 节点上创建子节点：create /sanguo/jin "simayi" Created /sanguo/jin ；观察 hadoop104 主机收到子节点变化的监听。注：节点的路径变化，也是注册一次，生效一次。想多次生效，就需要多次注册。

4、客户端api操作

a、环境依赖注入（可延续上几个实验）

<!--添加zookeeper的依赖-->
        <dependency>
            <groupId>org.apache.zookeeper</groupId>
            <artifactId>zookeeper</artifactId>
            <version>3.5.7</version>
        </dependency>

b、创建zookeeper客户端和进行节点操作：可以在Linux端实时控制节点，并在idea的控制台查看数据节点变化。

package cn.itjdb.zk;

import org.apache.zookeeper.*;
import org.apache.zookeeper.data.Stat;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.util.List;


public class zkClient {
    private String connectString="hadoop102:2181,hadoop103:2181,hadoop104:2181";
    private int sessionTimeout=2000;
    ZooKeeper zkClient=null;
    //创建zk客户端来连接相应的集群
    @Before
    public void init() throws IOException {
        zkClient = new ZooKeeper(connectString, sessionTimeout, new Watcher() {
            @Override
            public void process(WatchedEvent watchedEvent) {
                /*// 收到事件通知后的回调函数（用户的业务逻辑）
                System.out.println(watchedEvent.getType() + "--" + watchedEvent.getPath());
                // 再次启动监听
                List<String> children = null;
                try {
                    children = zkClient.getChildren("/", true);
                    for (String child : children) {
                        System.out.println(child);
                    }
                } catch (Exception e) {
                    e.printStackTrace();
                }*/
            }
        });
    }
    //创建一个子节点，用来被监测
    @Test
    public void create() throws KeeperException, InterruptedException {
        zkClient.create("/atguigu","nihao.txt".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
    }
    //获取节点并监听节点变化
    @Test
    public void getChildren() throws KeeperException, InterruptedException {
        List<String> children = zkClient.getChildren("/", true);
        for (String child : children) {
            System.out.println(child);
        }

        //延时阻塞 (没有效果是因为要重新建立节点来进行监测），体现实时效果要通过在初始化的时候不断进行监测）
        Thread.sleep(Long.MAX_VALUE);
    }

    //判断一个节点是否存在
    @Test
    public void exist() throws KeeperException, InterruptedException {
        Stat stat = zkClient.exists("/atguigu", false);
        System.out.println(stat==null?"not exist":"exist");
    }
}

客户端向服务端写数据流程：

5、案例实操

需求：某分布式系统中，主节点可以有多台，可以动态上下线，任意一台客户端都能实时感知到主节点服务器的上下线。

具体实现：现在集群上创建/servers节点：create /servers "servers" Created /servers

服务器端向zookeeper注册代码：

package cn.itjdb.zkcase1;

import org.apache.zookeeper.*;

import java.io.IOException;

/**
 * 对于zookeeper集群来说，服务器和客户端都相当于是一个节点，只是相应的功能不是一致的，一个创建，一个进行监听
 */
public class DistributeServer {

    private String connectString="hadoop102:2181,hadoop103:2181,hadoop104:2181";
    private int sessionTimeout=2000;
    private ZooKeeper zk=null;

    //進行集群的連接
    private void getConnect() throws IOException {
        zk = new ZooKeeper(connectString, sessionTimeout, new Watcher() {
            @Override
            public void process(WatchedEvent watchedEvent) {
            }
        });
    }

    private void regist(String hostname) throws KeeperException, InterruptedException {
        String create = zk.create("/servers/"+hostname, hostname.getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
        System.out.println(hostname+"is online");
    }

    private void business() throws InterruptedException {
        Thread.sleep(Long.MAX_VALUE);
    }

    public static void main(String[] args) throws IOException, KeeperException, InterruptedException {
        //1、获取zk连接
        DistributeServer server = new DistributeServer();
        server.getConnect();
        //2、注册服务器到zk集群（即创建相应的路径，将主机名称映射到集群上）
        server.regist(args[0]);

        //3、启动业务逻辑（sleep）
        server.business();

    }

}

客户端代码：

package cn.itjdb.zkcase1;

import org.apache.zookeeper.KeeperException;
import org.apache.zookeeper.WatchedEvent;
import org.apache.zookeeper.Watcher;
import org.apache.zookeeper.ZooKeeper;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;


public class DistributeClient {

    private ZooKeeper zkClient=null;
    private String connectString="hadoop102:2181,hadoop103:2181,hadoop104:2181";
    private int sessionTimeout=2000;
    //进行zk集群的连接
    private void getConnect() throws IOException {
        zkClient = new ZooKeeper(connectString, sessionTimeout, new Watcher() {
            @Override
            public void process(WatchedEvent watchedEvent) {
                // 收到事件通知后的回调函数（用户的业务逻辑）
                // 再次启动监听
                try {
                    getChildren();
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        });
    }
    //对特定的路径进行监听，true表示对zkClient中的watcher进行监听，也可以新建一个watcher。
    private void getChildren() throws KeeperException, InterruptedException {
        List<String> children = zkClient.getChildren("/servers", true);
        //创建一个集合来保存所有主机名称
        ArrayList<Object> servers = new ArrayList<>();
        //遍历所有节点，获取节点中的主机名称信息
        for (String child : children) {
            byte[] data = zkClient.getData("/servers/" + child, false, null);
            servers.add(new String(data));
        }
        // 4 打印服务器列表信息
        System.out.println(servers);
    }

    private void business() throws InterruptedException {
        Thread.sleep(Long.MAX_VALUE);
    }

    public static void main(String[] args) throws IOException, KeeperException, InterruptedException {
        //1、进行zk连接
        DistributeClient client = new DistributeClient();
        client.getConnect();

        //2、获取 servers 的子节点信息，从中获取服务器信息列表
        client.getChildren();

        //3、业务进程启动
        client.business();
    }


}

测试：

a、在Linux命令行上操作增加减少服务器：启动DistributionClient客户端；然后hadoop102上zk的客户端/servers目录上创建临时带序号节点（create -e -s /servers/hadoop102 "hadoop102"；create -e -s /servers/hadoop103 "hadoop103"）；此时查看idea控制台变化；执行删除操作（delete /servers/hadoop1020000000）;查看idea控制台变化。

b、在 Idea 上操作增加减少服务器（（1）启动 DistributeClient 客户端（如果已经启动过，不需要重启）（2）启动 DistributeServer 服务 ①点击 Edit Configurations…）