太阳不下山 发表于 2021-7-3 21:33:37

容器中的mysql迁移RDS,会话却“爆了”

1事件起源

   整个事件的起源还要从笔者最近入职了一家区块链金融公司来说起(为了保密性,不便透露公司名字),公司业务发展比较迅猛,突破百万用户也是近在眼前。整个系统都在阿里云上运行,每天都能看到用户的不断增长,即兴奋又担忧,为什么这么说呢?
   由于笔者过来的时候这里业务就已经上线了,系统接过来之后,快速了解了所有的应用服务都是在docker swarm跑起来的,也包括mysql数据库,以至于笔者就有了迁库的想法,按照这种用户量发展下去,mysql在容器中运行用不了多久肯定会撑不住。
   笔者就开始隐隐的担忧起来,毕竟不想每天提心吊胆的做运维。所以立马重新规划了新的方案和大家一起探讨,最终总监和相关技术负责人都敲定用RDS做为数据库新的方案,周星驰的功夫中也说道过:“天下武功,唯快不破”。就立马开始动身干起来。

2迁移计划
2.1原架构图




   从上图可以看出来,笔者只是把mysql独立出来了,开通RDS实例来跑数据库,当然还开通了其它的一些服务(比如oss、云redis等),这些不是本文的重点,就没有画出来。nginx和php服务还是在docker swarm中运行。本文只是对迁移后出了问题的库进行分享,下面来看看迁移的方案吧。

2.3 迁移流程方案

  开通RDS实例 ---> 备份sql ----> 导入到RDS ---> 修改数据库配置文件 --->测试验证
  1、根据业务量规划开通RDS实例,创建数据库和用户;
  2、提前做好RDS白名单,添加允许访问RDS的IP地址;
  3、mysqldump 备份docker 中的mysql;
  4、把备份好的.sql文件导入到RDS中;
  5、修改php项目的数据库配置文件;
  6、清空php项目的缓存文件或目录;
  7、测试验证;
  8、RDS定时备份;
   具体迁移细节就不展示了,笔者是在夜深人静的时候进行迁移操作的,确定大半夜没人访问我们的APP和网站了才开干的。
   我们的业务情况还有点像股市,我们是晚上12点不许操作和交易,第2天早上9点开盘,9点钟是并发的高峰期,就像朝阳大悦城上午开门一样,大批的顾客同时并发过来了。
   所以那天晚上在12点15分准时开干,按计划和提前准备的配置、命令、脚本进行操作的。把docker 中运行的mysql迁移到RDS上非常顺利,好几个库迁移不到半个小时就结束了,并且把网站和APP的流程都跑了一遍,也都是妥妥的,最终把提前准备好备份脚本放在crontab中定时执行,可以来看下脚本内容:
#!/bin/bash
#数据库IP
dbserver='*******'
#数据库用户名
dbuser='ganbing'
#数据库密码
dbpasswd='************'
#备份数据库,多个库用空格隔开
dbname='db1 db2 db3'
#备份时间
backtime=`date +%Y%m%d%H%M`
out_time=`date +%Y%m%d%H%M%S`
#备份输出路径
backpath='/data/backup/mysql/'
logpath=''/data/backup/logs/'

echo "################## ${backtime} #############################"
echo "开始备份"
#日志记录头部
echo "" >> ${logpath}/${dbname}_back.log
echo "-------------------------------------------------" >> ${logpath}/${dbname}_back.log
echo "备份时间为${backtime},备份数据库 ${dbname} 开始" >> ${logpath}/${dbname}_back.log

#正式备份数据库
for DB in $dbname; do
source=`/usr/bin/mysqldump-h ${dbserver} -u ${dbuser} -p${dbpasswd} ${DB} > ${backpath}/${DB}-${out_time}.sql` 2>> ${backpath}/mysqlback.log;
#备份成功以下操作
if [ "$?" == 0 ];then
    cd $backpath
    #为节约硬盘空间,将数据库压缩
    tar zcf ${DB}-${backtime}.tar.gz ${DB}-${backtime}.sql > /dev/null
    #删除原始文件,只留压缩后文件
    rm -f ${DB}-${backtime}.sql
    #删除15天前备份,也就是只保存15天内的备份
    find $backpath -name "*.tar.gz" -type f -mtime +15 -exec rm -rf {} \; > /dev/null 2>&1
    echo "数据库 ${dbname} 备份成功!!" >> ${logpath}/${dbname}_back.log
else
#备份失败则进行以下操作
echo "数据库 ${dbname} 备份失败!!" >> ${logpath}/${dbname}_back.log
fi
done

echo "完成备份"
echo "################## ${backtime} #############################"  到了1点钟,确定没问题后发通知到群里,发微信给领导表示已迁移完成,进行很顺利,然后笔者打车回家,睡觉。

3雪崩来临

  其实这一晚笔者睡得也不踏实,到了8点半就醒了,因为我们9点钟开盘,会有大量的客户涌进,每天开始产生新的交易(买入和卖出),给大家看下截图:


  进入会话去看看,发现会话“炸锅了”,发现几百页的select都挤在ub_user_calculate这个表中,这个表是数据量相对大一些,这张表目前有200多万条数据:

  ![]

  分析:当数据库中出现访问表的SQL没创建索引导致全表扫描,如果表的数据量很大扫描大量的数据,执行效率过慢,占用数据库连接,连接数堆积很快达到数据库的最大连接数设置,新的应用请求将会被拒绝导致故障发生。

4.2 解决问题

  赶紧把此事反应给开发负责人,表明问题根源找到了,会话锁死了,由其中的一张表没有索引而导致的,问询问需要给哪几个字段加索引。然后接着操作增加索引:



  怎么办呢?会话杀不完...
  没办法,先把访问入口切断吧,反正现在用户访问也超时,就毅然绝对先把域名停了,访问入口给切断了,然后在增加索引,索引加上了。
  入口也断了,索引也加上了,发现CPU还下去,如下图:


  实例重启完后,CPU下去了,会话也下去了:



  

5索引使用策略及优化
创建索引




[*]在经常查询而不经常增删改操作的字段加索引。
[*]order by与group by后应直接使用字段,而且字段应该是索引字段。
[*]一个表上的索引不应该超过6个。
[*]索引字段的长度固定,且长度较短。
[*]索引字段重复不能过多,如果某个字段为主键,那么这个字段不用设为索引。
[*]在过滤性高的字段上加索引。

使用索引注意事项


[*]使用like关键字时,前置%会导致索引失效。
[*]使用null值会被自动从索引中排除,索引一般不会建立在有空值的列上。
[*]使用or关键字时,or左右字段如果存在一个没有索引,有索引字段也会失效。
[*]使用!=操作符时,将放弃使用索引。因为范围不确定,使用索引效率不高,会被引擎自动改为全表扫描。
[*]不要在索引字段进行运算。
[*]在使用复合索引时,最左前缀原则,查询时必须使用索引的第一个字段,否则索引失效;并且应尽量让字段顺序与索引顺序一致。
[*]避免隐式转换,定义的数据类型与传入的数据类型保持一致。
  参考:https://help.aliyun.com/document_detail/52274.html?spm=a2c4g.11174283.6.812.ZGPyBQ

6总结

  1、此次故障虽然是表没有索引造成的,但是笔者是有责任的,没有挨个表检查一下表的结构;
  2、通过此次故障也可以看出来开发在设计表的真的要非常的重视,注意细节;
  3、还有就是之前在容器中运行的mysql也时不时的出现CPU瓶颈(比如CPU使用率偶尔会达到80%以上),笔者应该就要提前发现这些问题,彻底排查找出问题所在原因在进行迁库的操作。
  本章内容到此结束,喜欢我的文章,请点击最上方右角处的《关注》!!!
页: [1]
查看完整版本: 容器中的mysql迁移RDS,会话却“爆了”