tidb教程FG150-TiDB运维最佳实践

fgedu.net.cn

一、基础概念

1.1 运维定义

运维是指对系统进行日常维护、监控、故障处理、性能优化等操作，确保系统的稳定运行。TiDB的运维包括日常运维、故障处理、性能优化、版本升级等方面。

1.2 运维任务

日常维护：包括系统监控、备份、日志管理等。
故障处理：包括故障诊断、故障修复、故障预防等。
性能优化：包括SQL优化、索引优化、系统参数调优等。
版本升级：包括TiDB版本升级、补丁应用等。
安全管理：包括用户管理、权限管理、安全审计等。

1.3 运维工具

TiUP：TiDB的部署和管理工具。
TiDB Dashboard：TiDB的可视化管理工具。
Prometheus：开源的监控系统。
Grafana：开源的数据可视化工具。
AlertManager：开源的告警管理工具。
Ansible：自动化运维工具。
Shell脚本：用于自动化运维任务。

1.4 运维理念

预防为主：通过监控和分析，预防故障的发生。
快速响应：及时发现和处理故障，减少故障影响。
持续优化：持续优化系统性能和稳定性。
自动化：通过自动化工具，提高运维效率。
标准化：建立标准化的运维流程和规范。

二、规划建议

2.1 运维流程规划

日常运维流程：制定日常运维的流程和规范。
故障处理流程：制定故障处理的流程和规范。
版本升级流程：制定版本升级的流程和规范。
安全管理流程：制定安全管理的流程和规范。

2.2 运维团队规划

团队结构：根据系统规模和业务需求，组建合适的运维团队。
职责分工：明确团队成员的职责和分工。
技能要求：要求团队成员具备相关的技能和知识。
培训计划：制定团队成员的培训计划，提高技能水平。

2.3 运维工具规划

监控工具：选择合适的监控工具，如Prometheus、Grafana等。
自动化工具：选择合适的自动化工具，如Ansible、Shell脚本等。
备份工具：选择合适的备份工具，如BR、Dumpling等。
故障诊断工具：选择合适的故障诊断工具，如TiDB Dashboard等。

2.4 应急预案规划

故障应急预案：制定各类故障的应急预案。
灾备方案：制定系统的灾备方案。
演练计划：定期进行应急预案的演练。
恢复流程：制定系统的恢复流程。

三、实施方案

3.1 日常运维

系统监控

# 查看集群状态
tiup cluster display tidb-cluster

# 查看TiDB状态
tiup cluster status tidb-cluster

# 查看TiKV状态风哥提示：
kubectl top pods -n tidb-cluster -l app.kubernetes.io/component=tikv

# 查看PD状态
kubectl top pods -n tidb-cluster -l app.kubernetes.io/component=pd

# 查看存储使用情况
kubectl exec -n tidb-cluster tikv-0 -- df -h

# TiDB集群状态
Cluster type:       tidb
Cluster name:       tidb-cluster
Cluster version:    v7.5.0
Deploy user:        tidb
SSH type:           builtin
ID                Role  Host          Ports        Status  Data Dir                      Deploy Dir
--                ----  ----          -----        ------  --------                      ----------
192.168.1.13:22   tidb  192.168.1.13  4000/10080   Up      /tidb/data/tidb-4000          /tidb/deploy/tidb-4000
192.168.1.14:22   tikv  192.168.1.14  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.15:22   tikv  192.168.1.15  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.16:22   tikv  192.168.1.16  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.10:22   pd    192.168.1.10  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.11:22   pd    192.168.1.11  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.12:22   pd    192.168.1.12  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379

日志管理

# 查看TiDB日志
tiup cluster logs tidb-cluster -R tidb

# 查看TiKV日志
tiup cluster logs tidb-cluster -R tikv

# 查看PD日志
tiup cluster logs tidb-cluster -R pd

# 查看慢查询日志
cat /tidb/deploy/tidb-4000/log/tidb-slow.log

# 清理日志
find /tidb/log -name "*.log" -mtime +7 -exec rm -f {} \;

备份管理

# 执行全量备份
tiup br backup full --pd "192.168.1.10:2379" --storage "local:///tidb/backup/full/$(date +%Y%m%d)"

# 执行增量备份
tiup br backup incremental --pd "192.168.1.10:2379" --storage "local:///tidb/backup/incremental/$(date +%Y%m%d)" --last-backup "local:///tidb/backup/full/$(date +%Y%m%d)"

# 查看备份状态
tiup br status --storage "local:///tidb/backup/full/$(date +%Y%m%d)"

# 清理过期备份
find /tidb/backup -type d -mtime +30 -exec rm -rf {} \;

3.2 故障处理

故障诊断

# 查看集群状态
tiup cluster display tidb-cluster

# 查看TiDB Dashboard
# 地址：http://192.168.1.13:10080/dashboard

# 查看慢查询
# 在TiDB Dashboard > 慢查询

# 查看热点分析
# 在TiDB Dashboard > 热点分析

# 查看SQL语句分析
# 在TiDB Dashboard > SQL语句分析

# 查看系统指标
# 在Grafana中查看监控指标

故障修复

# 重启TiDB服务
tiup cluster restart tidb-cluster -R tidb

# 重启TiKV服务
tiup cluster restart tidb-cluster -R tikv

# 重启PD服务
tiup cluster restart tidb-cluster -R pd

# 替换TiKV节点
tiup cluster replace tikb-cluster --old 192.168.1.14:22 --new 192.168.1.17:22

# 扩缩容集群
tiup cluster scale-out tidb-cluster scale-out.yaml学习交流加群风哥QQ113257174
tiup cluster scale-in tidb-cluster --node 192.168.1.17:22

3.3 性能优化

SQL优化

-- 分析慢查询
EXPLAIN SELECT * FROM fgedu_users WHERE age > 25;

-- 创建索引
CREATE INDEX idx_age ON fgedu_users(age);

-- 优化SQL语句
EXPLAIN SELECT id, username, email FROM fgedu_users WHERE age > 25;

-- 分析表统计信息
ANALYZE TABLE fgedu_users;

系统参数调优

# 编辑TiDB配置文件
tiup cluster edit-config tidb-cluster

# 在TiDB配置中添加以下内容
# tidb:
#   config:
#     performance:
#       max-procs: 8
#       stmt-count-limit: 10000
#       txn-total-size-limit: 1073741824
#     prepared-plan-cache:
#       enable: true
#       capacity: 1000

# 在TiKV配置中添加以下内容
# tikv:
#   config:
#     server:
#       thread-pool-size: 8
#     storage:
#       scheduler-concurrency: 1024
#     raftstore:
#       sync-log: false

# 重载配置
tiup cluster reload tidb-cluster

3.4 版本升级

升级前准备

# 备份数据
tiup br backup full --pd "192.168.1.10:2379" --storage "local:///tidb/backup/full/upgrade-$(date +%Y%m%d)"

# 查看当前版本
tiup cluster display tidb-cluster

# 查看升级文档
# 访问TiDB官方文档，查看升级注意事项

# 准备升级计划
# 制定详细的升级计划，包括升级步骤、回滚方案等

执行升级

# 升级TiUP
tiup update --self

# 升级集群
tiup cluster upgrade tidb-cluster v7.5.1

# 查看升级状态
tiup cluster display tidb-cluster

# 验证升级结果
# 检查集群状态、业务功能等

3.5 自动化运维

使用Shell脚本自动化运维

# 日常检查脚本
cat > /tidb/scripts/daily-check.sh << EOF
#!/bin/bash

LOG_FILE="/tidb/log/daily-check-$(date +%Y%m%d).log"

# 查看集群状态
echo "=== Cluster Status ===" >> $LOG_FILE
tiup cluster display tidb-cluster >> $LOG_FILE

# 查看TiDB状态
echo "\n=== TiDB Status ===" >> $LOG_FILE
tiup cluster status tidb-cluster >> $LOG_FILE

# 查看存储使用情况
echo "\n=== Storage Usage ===" >> $LOG_FILE
for node in 192.168.1.10 192.168.1.11 192.168.1.12 192.168.1.13 192.168.1.14 192.168.1.15 192.168.1.16
do
    echo "Node: $node" >> $LOG_FILE
    ssh $node "df -h" >> $LOG_FILE
    echo >> $LOG_FILE
done

# 查看慢查询
echo "\n=== Slow Queries ===" >> $LOG_FILE
tail -n 100 /tidb/deploy/tidb-4000/log/tidb-slow.log >> $LOG_FILE

# 发送邮件
# mail -s "TiDB Daily Check Report" admin@example.com < $LOG_FILE

# 清理过期日志
find /tidb/log -name "*.log" -mtime +7 -exec rm -f {} \;
EOF

# 赋予执行权限
chmod +x /tidb/scripts/daily-check.sh

# 添加到crontab
crontab -e
# 添加以下内容
# 0 8 * * * /bin/bash /tidb/scripts/daily-check.sh

四、实战案例

4.1 生产环境日常运维

场景：企业需要对TiDB生产环境进行日常运维，确保系统的稳定运行。

步骤1：日常检查

# 查看集群状态
tiup cluster display tidb-cluster

# 查看TiDB状态
tiup cluster status tidb-cluster

# 查看存储使用情况
kubectl exec -n tidb-cluster tikv-0 -- df -h
kubectl exec -n tidb-cluster tikv-1 -- df -h
kubectl exec -n tidb-cluster tikv-2 -- df -h

# 查看慢查询
cat /tidb/deploy/tidb-4000/log/tidb-slow.log

# TiDB集群状态
Cluster type:       tidb
Cluster name:       tidb-cluster
Cluster version:    v7.5.0
Deploy user:        tidb
SSH type:           builtin
ID                Role  Host          Ports        Status  Data Dir                      Deploy Dir
--                ----  ----          -----        ------  --------                      ----------
192.168.1.13:22   tidb  192.168.1.13  4000/10080   Up      /tidb/data/tidb-4000          /tidb/deploy/tidb-4000
192.168.1.14:22   tikv  192.168.1.14  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.15:22   tikv  192.168.1.15  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.16:22   tikv  192.168.1.16  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.10:22   pd    192.168.1.10  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.11:22   pd    192.168.1.11  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.12:22   pd    192.168.1.12  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379

# 存储使用情况
Filesystem      Size  Used Avail Use% Mounted on
/dev/sda1       500G  120G  380G  24% /

步骤2：备份管理

# 执行全量备份
tiup br backup full --pd "192.168.1.10:2379" --storage "s3://tidb-backup/full/$(date +%Y%m%d)?access-key=AKIA...&secret-access-key=...®ion=us-east-1"

# 执行增量备份
tiup br backup incremental --pd "192.168.1.10:2379" --storage "s3://tidb-backup/incremental/$(date +%Y%m%d)?access-key=AKIA...&secret-access-key=...®ion=us-east-1" --last-backup "s3://tidb-backup/full/$(date +%Y%m%d)?access-key=AKIA...&secret-access-key=...®ion=us-east-1"

# 查看备份状态
tiup br status --storage "s3://tidb-backup/full/$(date +%Y%m%d)?access-key=AKIA...&secret-access-key=...®ion=us-east-1"

Full backup  success summary:
- Backup took 1m23s
- Total backup size: 102.4 MB
- Backup files: 10

步骤3：性能优化

# 分析慢查询
EXPLAIN SELECT * FROM fgedu_users WHERE age > 25;

-- 创建索引
CREATE INDEX idx_age ON fgedu_users(age);

-- 优化SQL语句
EXPLAIN SELECT id, username, email FROM fgedu_users WHERE age > 25;

-- 分析表统计信息
ANALYZE TABLE fgedu_users;

# 编辑TiDB配置文件
tiup cluster edit-config tidb-cluster

# 在TiDB配置中添加以下内容
# tidb:
#   config:
#     performance:
#       max-procs: 8
#       stmt-count-limit: 10000
#       txn-total-size-limit: 1073741824
#     prepared-plan-cache:
#       enable: true
#       capacity: 1000

# 重载配置
tiup cluster reload tidb-cluster -R tidb

4.2 故障处理

场景：TiDB集群出现故障，需要及时处理。

步骤1：故障诊断

# 查看集群状态
tiup cluster display tidb-cluster

# 查看TiDB Dashboard
# 地址：http://192.168.1.13:10080/dashboard

# 查看慢查询
# 在TiDB Dashboard > 慢查询

# 查看热点分析
# 在TiDB Dashboard > 热点分析

# 查看系统指标
# 在Grafana中查看监控指标

# TiDB集群状态
Cluster type:       tidb
Cluster name:       tidb-cluster
Cluster version:    v7.5.0
Deploy user:        tidb
SSH type:           builtin
ID                Role  Host          Ports        Status  Data Dir                      Deploy Dir
--                ----  ----          -----        ------  --------                      ----------
192.168.1.13:22   tidb  192.168.1.13  4000/10080   Up      /tidb/data/tidb-4000          /tidb/deploy/tidb-4000
192.168.1.14:22   tikv  192.168.1.14  20160/20180  Down    /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.15:22   tikv  192.168.1.15  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.16:22   tikv  192.168.1.16  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.10:22   pd    192.168.1.10  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.11:22   pd    192.168.1.11  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.12:22   pd    192.168.1.12  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379

步骤2：故障修复

# 检查TiKV节点状态
ssh 192.168.1.14 "systemctl status tikv"

# 查看TiKV日志
cat /tidb/deploy/tikv-20160/log/tikv.log | tail -n 100

# 重启TiKV服务
tiup cluster restart tidb-cluster -R tikv

# 查看集群状态
tiup cluster display tidb-cluster

# 验证故障修复
# 检查业务功能是否正常

# 重启TiKV服务后
Cluster type:       tidb
Cluster name:       tidb-cluster
Cluster version:    v7.5.0
Deploy user:        tidb
SSH type:           builtin
ID                Role  Host          Ports        Status  Data Dir                      Deploy Dir
--                ----  ----          -----        ------  --------                      ----------
192.168.1.13:22   tidb  192.168.1.13  4000/10080   Up      /tidb/data/tidb-4000          /tidb/deploy/tidb-4000
192.168.1.14:22   tikv  192.168.1.14  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.15:22   tikv  192.168.1.15  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.16:22   tikv  192.168.1.16  20160/20180  Up      /tidb/data/tikv-20160         /tidb/deploy/tikv-20160
192.168.1.10:22   pd    192.168.1.10  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.11:22   pd    192.168.1.11  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379
192.168.1.12:22   pd    192.168.1.12  2379/2380    Up      /tidb/data/pd-2379            /tidb/deploy/pd-2379

五、经验总结

5.1 运维最佳实践

日常监控：定期监控系统状态，及时发现和解决问题。
备份管理：定期备份数据，确保数据安全。
故障处理：快速响应和处理故障，减少故障影响。
性能优化：持续优化系统性能，提高系统的稳定性和响应速度。
版本升级：定期升级系统版本，获取新功能和 bug 修复。
安全管理：加强安全管理，防止安全漏洞。
自动化运维：使用自动化工具，提高运维效率。
文档记录：记录运维过程和经验，便于知识共享和培训。
团队协作：建立良好的团队协作机制，提高运维效率。
持续学习：不断学习新技术和新方法，提高运维水平。

5.2 常见问题与解决方案

问题	原因	解决方案
TiKV节点故障	硬件故障，网络问题，配置不当	检查硬件状态，网络连接，重启服务
TiDB服务无响应	连接数过多，SQL执行慢，资源不足	优化SQL语句，增加资源，重启服务
PD节点故障	硬件故障，网络问题，配置不当	检查硬件状态，网络连接，重启服务
性能下降	SQL优化不当，索引设计不合理，资源不足	优化SQL语句，创建合适的索引，增加资源
数据丢失	备份失败，故障恢复不当	定期备份数据，制定合理的恢复方案

5.3 运维检查清单

检查项	配置要求	状态
日常监控	定期监控系统状态，及时发现和解决问题	□
备份管理	定期备份数据，确保数据安全	□
故障处理	快速响应和处理故障，减少故障影响	□
性能优化	持续优化系统性能，提高系统的稳定性和响应速度	□
版本升级	定期升级系统版本，获取新功能和 bug 修复	□
安全管理	加强安全管理，防止安全漏洞	□
自动化运维	使用自动化工具，提高运维效率	□
文档记录	记录运维过程和经验，便于知识共享和培训	□
团队协作	建立良好的团队协作机制，提高运维效率	□
持续学习	不断学习新技术和新方法，提高运维水平	□

更多视频教程www.fgedu.net.cn

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html