评论

收藏

[NoSQL] #yyds干货盘点# redis | 十九、redis之多哨兵模式

数据库 数据库 发布于:2021-12-24 22:43 | 阅读数:247 | 评论:0

公众号:雨中散步撒哈拉
文章同步公众号,共同学习进步
个人网站:​​ https://liudongdong.top​​​
文章来源:​​ https://liudongdong.top/archives/redisshi-jiu-redis-zhi-duo-shao-bing-mo-shi​​




本篇学习采用windows环境下,Linux同步骤

一、为什么要使用哨兵模式?
官方文档:http://redis.cn/topics/sentinel.html在上篇的模式中,无论是一主俩从还是链路集群,当主机宕机,只能需要外力来修改集群间的关系,那集群规模发展到庞大的时候?岂不尴尬!!!在使用手动命令在主机宕机后选定新的主机,在这段手动重启的时间之内可能会造成服务不可用甚至是数据的丢失,为了能够避免这些情况并且更加的自动化运行,redis 2.8 推出了哨兵模式。在一主多从的集群架构下,如果主机宕机,使用哨兵模式的 redis cluster 将会从多台从机中自动的重新选举一台从机作为主机。

二、哨兵模式

1. 单哨兵
Redis 的提供了哨兵命令,哨兵是 Redis 中的一个独立进程,哨兵会发送命令给所有的 Redis 服务器并等待 Redis 服务器响应,从而监控运行的多个 Redis 服务器 ( 有点类似于心跳检测?keep-alive? )
DSC0000.png
因此哨兵具有两个作用

  • 持续 ( 每 10 s ) 对所有的主从 Redis 服务器进行心跳检测,并获取当前的拓扑结构,当有从节点加入时可以及时感知到
  • 当检测到 master 宕机,自动从 slave 中选举一台切换为 master,然后通过 pub/sub 通知其他的 slave 修改配置文件,切换 master

2. 多哨兵
然后如果只有一个哨兵时,带来的问题就是如果这个哨兵也挂了那该怎么办?因此就有了多哨兵模式
DSC0001.png 主观下线和客观下线

  • 主观下线:假如 master 不可用,哨兵 1 先检测到了这个结果,此时系统并不会立马进行重新选举,因为此时只有哨兵 1 认为 master 不可用了,这个现象就称之为主观下线
  • 客观下线:当其他的哨兵也检测到 master 不可用,并且检测到的哨兵数达到一定数量时,哨兵之间就会进行一次选举,然后根据选举结果切换主机,切换完成后通过 pub/sub 通知哨兵,让其将各自监控的 slave 切换为新的 master,这个过程称之为客观下线

三、多哨兵模式搭建
单哨兵和多哨兵模式,只在于监控量的多少,如只想搭建单哨兵,可以只配置一个哨兵配置文件,并根据配置文件启动哨兵模式。

1. 集群规划
master ip:127.0.0.1 port:6379  
slave1 ip:127.0.0.1 port:6380  
slave2 ip:127.0.0.1 port:6381  
sentinel1 ip:127.0.0.1 port:16379
sentinel2 ip:127.0.0.1 port:16380
sentinel3 ip:127.0.0.1 port:16381
2. 配置master、slave节点(三份同理)
在上一篇已经进行了集群的配置,详情请看:https://liudongdong.top/archives/redisshi-ba-redis-zhi-zhu-cong-fu-zhi

  • 修改端口
修改端口为指定的6379,剩下俩份同理​​​port 6379​​
DSC0002.png

  • 修改pid
Linux环境下修改,本次在windows下不支持pid文件​​​pidfile /var/run/redis.pid​​





  • 修改日志文件
​​logfile "6379.log"​​
DSC0003.png

  • 修改默认rdb文件名称
​​dbfilename dump6379.rdb​​
DSC0004.png

  • 修改集群配置(80和81配置)
​​slaveof 127.0.0.1 6379​​
DSC0005.png

3. 哨兵配置文件(三份同理)
除端口号外,其他信息一样。
# 端口
port 16379
# 监控主机和ip对应的redis服务 后边2为投票数
sentinel monitor mymaster 127.0.0.1 6379 2
# 监控宕机后 客观下线为多少毫秒(默认为30秒)
sentinel down-after-milliseconds mymaster 30000
# 主从切换过程,有多少从节点同时对新的master进行同步
sentinel parallel-syncs mymaster 1  
# 故障转移超时时间
sentinel failover-timeout mymaster 180000
# 保护模式
protected-mode no
DSC0006.png



4. 启动service、sentinel、client
启动命令如下:
# 启动集群
redis-server.exe redis.windows-79.conf
redis-server.exe redis.windows-80.conf
redis-server.exe redis.windows-81.conf
# 启动哨兵
redis-server.exe sentinel-16379.conf --sentinel
redis-server.exe sentinel-16380.conf --sentinel
redis-server.exe sentinel-16381.conf --sentinel
# 启动客户端
redis-cli.exe -h 127.0.0.1  -p 6379
redis-cli.exe -h 127.0.0.1  -p 6380
redis-cli.exe -h 127.0.0.1  -p 6381
# 哨兵客户端启动
redis-cli.exe -h 127.0.0.1 -p 16379
redis-cli.exe -h 127.0.0.1 -p 16380
redis-cli.exe -h 127.0.0.1 -p 16381
集群启动、哨兵启动
DSC0007.png
集群客户端启动


哨兵客户端启动
DSC0008.png

四、哨兵模式集群测试

测试主机宕机

  • 关闭master节点
DSC0009.png

  • 查看sentinel服务
DSC00010.png
sentinel投票结果选为6381为master节点

  • 查看6381节点
DSC00011.png
发现6381节点已经进行了故障转移,选择了81为主节点

附录
哨兵配置
# Example sentinel.conf
# 哨兵sentinel实例运行的端口 默认26379,多个集群就需要多个端口
port 26379
# 哨兵sentinel的工作目录
dir /tmp
# 哨兵sentinel监控的redis主节点的 ip port
# master-name 可以自己命名的主节点名字 只能由字母A-z、数字0-9 、这三个字符".-_"组成。
# quorum 配置多少个sentinel哨兵统一认为master主节点失联 那么这时客观上认为主节点失联了
# sentinel monitor <master-name> <ip> <redis-port> <quorum> 
sentinel monitor mymaster 127.0.0.1 6379 2

# 当在Redis实例中开启了requirepass foobared 授权password 这样所有连接Redis实例的客户端都要提供password
# 设置哨兵sentinel 连接主从的password 注意必须为主从设置一样的验证password
# sentinel auth-pass <master-name> <password> 
sentinel auth-pass mymaster MySUPER--secret-0123passw0rd
# 指定多少毫秒之后 主节点没有应答哨兵sentinel 此时 哨兵主观上认为主节点下线 默认30秒
# sentinel down-after-milliseconds <master-name> <milliseconds> 
sentinel down-after-milliseconds mymaster 30000
# 这个配置项指定了在发生failover主备切换时最多可以有多少个slave同时对新的master进行同步,这个数字越小,完成failover所需的时间就越长,但是如果这个数字越大,就意味着越 多的slave因为replication而不可用。可以通过将这个值设为 1 来保证每次只有一个slave 处于不能处理命令请求的状态。
# sentinel parallel-syncs <master-name> <numslaves> 
sentinel parallel-syncs mymaster 1
# 故障转移的超时时间 failover-timeout 可以用在以下这些方面:
#1. 同一个sentinel对同一个master两次failover之间的间隔时间。
#2. 当一个slave从一个错误的master那里同步数据开始计算时间。直到slave被纠正为向正确的master那里同步数据时。
#3.当想要取消一个正在进行的failover所需要的时间。
#4.当进行failover时,配置所有slaves指向新的master所需的最大时间。不过,即使过了这个超时,slaves依然会被正确配置为指向master,但是就不按parallel-syncs所配置的规则来了
# 默认三分钟
# sentinel failover-timeout <master-name> <milliseconds> 
sentinel failover-timeout mymaster 180000
# SCRIPTS EXECUTION
#配置当某一事件发生时所需要执行的脚本,可以通过脚本来通知管理员,例如当系统运行不正常时发邮件通知相关人员。
#对于脚本的运行结果有以下规则:
#若脚本执行后返回1,那么该脚本稍后将会被再次执行,重复次数目前默认为10
#若脚本执行后返回2,或者比2更高的一个返回值,脚本将不会重复执行。
#如果脚本在执行过程中由于收到系统中断信号被终止了,则同返回值为1时的行为相同。
#一个脚本的最大执行时间为60s,如果超过这个时间,脚本将会被一个SIGKILL信号终止,之后重新执行。
#通知型脚本:当sentinel有任何警告级别的事件发生时(比如说redis实例的主观失效和客观失效等等),将会去调用这个脚本,这时这个脚本应该通过邮件,SMS等方式去通知系统管理员关于系统不正常运行的信息。调用该脚本时,将传给脚本两个参数,一个是事件的类型,一个是事件的描述。如果sentinel.conf配置文件中配置了这个脚本路径,那么必须保证这个脚本在于这个路径,并且是可执行的,否则sentinel无法正常启动成功。
#通知脚本
# sentinel notification-script <master-name> <script-path> 
sentinel notification-script mymaster /var/redis/notify.sh
# 客户端重新配置主节点参数脚本
# 当一个master由于failover而发生改变时,这个脚本将会被调用,通知相关的客户端关于master地址已经发生改变的信息。
# 以下参数将会在调用脚本时传给脚本:
# <master-name> <role> <state> <from-ip> <from-port> <to-ip> <to-port>
# 目前<state>总是“failover”,
# <role>是“leader”或者“observer”中的一个。
# 参数 from-ip, from-port, to-ip, to-port是用来和旧的master和新的master(即旧的slave)通信的

关注下面的标签,发现更多相似文章