tidb教程FG179-TiDB监控与告警自定义配置

本文档风哥主要介绍TiDB监控与告警自定义配置相关知识，包括监控基础、告警基础、TiDB监控特性、监控规划、告警规划、性能建议、监控实施方案、告警实施方案、自定义配置实施方案等内容，风哥教程参考TiDB官方文档监控与告警章节，适合DBA人员在学习和测试中使用，如果要应用于生产环境则需要自行确认。

Part01-基础概念与理论知识

1.1 监控基础

监控的核心概念：

监控：对系统的运行状态、性能指标、资源使用等进行实时采集、存储和分析。
指标：监控系统采集的具体数据，如CPU使用率、内存使用率、I/O性能等。
采集：通过各种方式获取系统的运行数据。
存储：将采集到的监控数据存储起来，便于后续分析。
展示：通过可视化方式展示监控数据，便于查看和分析。
告警：当监控指标达到阈值时，触发告警通知。

监控的重要性：

及时发现系统异常，避免故障扩大
了解系统性能状况，优化系统配置
预测系统容量需求，提前规划扩容
为故障排查提供数据支持
评估系统改进效果

1.2 告警基础

告警的核心概念：

告警：当监控指标达到阈值时，触发的通知机制。

风哥提示：

告警级别：根据告警的严重程度划分的级别，如紧急、严重、警告、信息等。
告警规则：定义告警触发的条件和阈值。
告警通知：通过邮件、短信、微信等方式发送告警信息。
告警处理：对告警进行确认、处理和关闭的过程。
告警聚合：将相关的告警合并，减少告警噪音。

# 告警级别

## 紧急（Critical）
– 系统完全不可用
– 核心业务功能无法正常运行
– 需要立即处理

## 严重（Major）
– 系统部分功能不可用
– 性能严重下降
– 需要尽快处理

## 警告（Warning）
– 系统出现异常，但不影响核心功能
– 性能有所下降
– 需要关注并处理

## 信息（Info）
– 系统正常运行
– 但有需要关注的事件
– 不需要立即处理

1.3 TiDB监控特性

TiDB的监控特性：

# TiDB监控特性

## 1. 监控体系
– Prometheus：负责指标采集和存储
– Grafana：负责指标可视化展示
– Alertmanager：负责告警管理和通知
– Node Exporter：负责主机指标采集
– Blackbox Exporter：负责网络和服务探测

## 2. 监控指标
– TiDB指标：SQL执行、连接数、事务等
– TiKV指标：存储、Raft、 RocksDB等
– PD指标：集群管理、调度等
– 主机指标：CPU、内存、磁盘、网络等

## 3. 监控面板
– 总览面板：集群整体状态
– TiDB面板：TiDB组件详细指标
– TiKV面板：TiKV组件详细指标
– PD面板：PD组件详细指标
– 主机面板：主机详细指标

## 4. 告警机制
– 预定义告警规则：覆盖常见故障场景
– 自定义告警规则：根据业务需求定制
– 多渠道通知：邮件、短信、微信等
– 告警聚合：减少告警噪音
– 告警抑制：避免告警风暴

## 5. 监控API
– Prometheus API：查询监控数据
– Grafana API：管理监控面板
– Alertmanager API：管理告警规则
– TiDB API：获取TiDB内部状态

风哥提示：监控与告警是数据库运维的重要组成部分，合理的监控与告警配置可以帮助我们及时发现和解决问题。更多视频教程www.fgedu.net.cn

Part02-生产环境规划与建议

2.1 监控规划

监控规划：

# 监控规划

## 1. 监控目标
– 全面覆盖：监控所有TiDB组件和主机
– 实时监控：实时采集和展示监控数据
– 历史数据：存储足够的历史监控数据，便于趋势分析
– 性能监控：监控系统性能指标，发现性能瓶颈
– 故障监控：监控系统故障，及时发现问题

## 2. 监控指标规划
– 核心指标：必须监控的关键指标
– 次要指标：辅助监控的指标
– 自定义指标：根据业务需求定制的指标
– 指标采集频率：根据指标重要性设置不同的采集频率

## 3. 监控存储规划
– 存储容量：根据监控数据量和保留时间计算存储容量
– 存储性能：确保存储性能满足监控数据写入需求
– 存储可靠性：确保监控数据的安全存储学习交流加群风哥QQ113257174
– 存储扩展：支持存储容量的水平扩展

## 4. 监控展示规划
– 总览面板：展示集群整体状态
– 详细面板：展示各组件的详细指标
– 自定义面板：根据业务需求定制的面板
– 告警面板：展示当前告警状态
– 趋势面板：展示指标的历史趋势

## 5. 监控集成规划
– 与现有监控系统集成：如Zabbix、Nagios等
– 与告警系统集成：如PagerDuty、OpsGenie等
– 与日志系统集成：如ELK Stack、Loki等
– 与CI/CD系统集成：如Jenkins、GitLab CI等

2.2 告警规划

告警规划：

# 告警规划

## 1. 告警目标
– 及时发现：及时发现系统异常
– 准确告警：减少误报和漏报
– 有效通知：确保告警信息及时送达
– 快速响应：缩短故障响应时间
– 持续改进：不断优化告警规则

## 2. 告警规则规划
– 核心告警：针对核心功能和关键指标的告警
– 次要告警：针对非核心功能和次要指标的告警
– 自定义告警：根据业务需求定制的告警
– 告警阈值：根据系统性能和业务需求设置合理的阈值
– 告警频率：设置合理的告警触发频率，避免告警风暴

## 3. 告警通知规划
– 通知渠道：邮件、短信、微信、电话等
– 通知策略：根据告警级别选择不同的通知渠道
– 通知分组：根据责任分工将告警发送给相应的团队
– 通知模板：统一告警通知格式，便于快速理解
– 通知验证：确保告警通知能够及时送达

## 4. 告警处理规划
– 告警确认：收到告警后及时确认
– 告警处理：按照故障处理流程处理告警
– 告警关闭：故障解决后及时关闭告警
– 告警分析：分析告警原因，避免类似问题再次发生
– 告警统计：统计告警数量和类型，评估系统稳定性

## 5. 告警优化规划
– 告警聚合：将相关的告警合并，减少告警噪音
– 告警抑制：在特定情况下抑制告警，避免告警风暴
– 告警阈值调整：根据系统运行情况调整告警阈值
– 告警规则优化：定期优化告警规则，提高告警准确性
– 告警演练：定期进行告警演练，确保告警系统正常运行

2.3 性能建议

性能建议：

# 性能建议

## 1. 监控系统性能建议
– Prometheus性能：合理配置Prometheus的存储和查询参数
– Grafana性能：优化Grafana的面板和查询
– 指标采集频率：根据指标重要性设置不同的采集频率
– 监控数据保留：根据业务需求设置合理的监控数据保留时间
– 监控系统扩展：根据集群规模扩展监控系统

## 2. 告警系统性能建议
– Alertmanager性能：合理配置Alertmanager的参数
– 告警规则数量：控制告警规则的数量，避免过多规则影响性能
– 告警通知频率：设置合理的告警通知频率，避免通知风暴
– 告警聚合：使用告警聚合减少告警数量
– 告警抑制：使用告警抑制避免告警风暴

## 3. 硬件建议
– CPU：选择多核CPU，提高监控数据处理能力
– 内存：增加内存容量，提高监控数据缓存能力
– 存储：使用SSD存储，提高监控数据读写性能
– 网络：使用高速网络，减少监控数据传输延迟

## 4. 配置建议
– Prometheus配置：合理配置Prometheus的scrape_interval、storage.tsdb.retention等参数
– Grafana配置：优化Grafana的dashboard_refresh_interval、max_concurrent_queries等参数
– Alertmanager配置：合理配置Alertmanager的route、inhibit_rules等参数
– Node Exporter配置：合理配置Node Exporter的collector参数

## 5. 监控覆盖建议
– 全面监控：监控所有TiDB组件和主机
– 重点监控：重点监控关键指标和核心功能
– 自定义监控：根据业务需求定制监控指标
– 监控告警联动：确保监控与告警的有效联动
– 监控演练：定期进行监控演练，确保监控系统正常运行

生产环境建议：监控与告警的规划需要根据实际业务场景进行调整，不同类型的业务需要不同的监控与告警策略。学习交流加群风哥微信: itpux-com

Part03-生产环境项目实施方案

3.1 监控实施方案

3.1.1 Prometheus配置

# Prometheus配置

## 1. 基础配置
$ cat > prometheus.yml << EOF global: scrape_interval: 15s evaluation_interval: 15s alerting: alertmanagers: - static_configs: - targets: ['localhost:9093'] rule_files: - "rules/*.yml" scrape_configs: - job_name: 'tidb' static_configs: - targets: ['192.168.1.100:9090'] - job_name: 'tikv' static_configs: - targets: ['192.168.1.101:9091', '192.168.1.102:9091', '192.168.1.103:9091'] - job_name: 'pd' static_configs: - targets: ['192.168.1.100:9092'] - job_name: 'node' static_configs: - targets: ['192.168.1.100:9100', '192.168.1.101:9100', '192.168.1.102:9100', '192.168.1.103:9100'] EOF ## 2. 启动Prometheus $ prometheus --config.file=prometheus.yml --storage.tsdb.path=/tidb/prometheus/data --storage.tsdb.retention.time=15d ## 3. 验证Prometheus # 访问 http://localhost:9090 # 查看Targets页面，确认所有目标都已成功采集 ## 4. 配置Prometheus高可用 $ cat > prometheus-ha.yml << EOF global: scrape_interval: 15s evaluation_interval: 15s alerting: alertmanagers: - static_configs: - targets: ['localhost:9093'] rule_files: - "rules/*.yml" scrape_configs: - job_name: 'tidb' static_configs: - targets: ['192.168.1.100:9090'] - job_name: 'tikv' static_configs: - targets: ['192.168.1.101:9091', '192.168.1.102:9091', '192.168.1.103:9091'] - job_name: 'pd' static_configs: - targets: ['192.168.1.100:9092'] - job_name: 'node' static_configs: - targets: ['192.168.1.100:9100', '192.168.1.101:9100', '192.168.1.102:9100', '192.168.1.103:9100'] - job_name: 'prometheus' static_configs: - targets: ['localhost:9090', '192.168.1.104:9090'] EOF

3.1.2 Grafana配置

# Grafana配置

## 1. 基础配置
$ cat > grafana.ini << EOF [server] http_port = 3000 domain = localhost [database] type = sqlite3 path = /tidb/grafana/data/grafana.db [session] provider = file [analytics] check_for_updates = true [security] admin_user = admin admin_password = admin [smtp] enabled = true host = smtp.example.com:587 user = admin@example.com password = password from_address = admin@example.com from_name = Grafana EOF ## 2. 启动Grafana $ grafana-server --config=grafana.ini --homepath=/tidb/grafana ## 3. 配置数据源 # 访问 http://localhost:3000 # 登录（默认用户名：admin，密码：admin） # 配置 Prometheus 数据源： # - 名称：Prometheus # - URL：http://localhost:9090 # - 访问：服务器 ## 4. 导入面板 # 导入 TiDB 官方面板： # - TiDB Overview：12900 # - TiDB Details：12901 # - TiKV Details：12902 # - PD Details：12903 # - Node Exporter Full：1860

3.2 告警实施方案

3.2.1 Alertmanager配置

# Alertmanager配置

## 1. 基础配置
$ cat > alertmanager.yml << EOF global: resolve_timeout: 5m smtp_smarthost: 'smtp.example.com:587' smtp_from: 'admin@example.com' smtp_auth_username: 'admin@example.com' smtp_auth_password: 'password' route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'email' routes: - match: severity: critical receiver: 'email' receivers: - name: 'email' email_configs: - to: 'admin@example.com' send_resolved: true inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service'] EOF ## 2. 启动Alertmanager $ alertmanager --config.file=alertmanager.yml --storage.path=/tidb/alertmanager/data ## 3. 验证Alertmanager # 访问 http://localhost:9093 # 查看Alerts页面，确认告警规则已加载 ## 4. 配置告警规则 $ mkdir -p /tidb/prometheus/rules $ cat > /tidb/prometheus/rules/tidb.rules.yml << EOF groups: - name: tidb_alerts rules: - alert: TiDBDown expr: up{job="tidb"} == 0 for: 5m labels: severity: critical annotations: summary: "TiDB 实例宕机" description: "TiDB 实例 {{ labels.instance }} 已宕机超过 5 分钟" - alert: TiDBHighCPU expr: (sum by(instance) (rate(process_cpu_seconds_total{job="tidb"}[5m])) / (count by(instance) (count_processes{job="tidb"})) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “TiDB CPU 使用率过高”
description: “TiDB 实例 {{ labels.instance }} CPU 使用率超过 80%”

– alert: TiDBHighMemory
expr: (sum by(instance) (process_resident_memory_bytes{job=”tidb”})) / (sum by(instance) (machine_memory_bytes{job=”node”})) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “TiDB 内存使用率过高”
description: “TiDB 实例 {{ labels.instance }} 内存使用率超过 80%”
EOF

3.2.2 自定义告警规则

# 自定义告警规则

## 1. 业务相关告警规则
$ cat > /tidb/prometheus/rules/business.rules.yml << EOF groups: - name: business_alerts rules: - alert: HighQPS expr: sum(rate(tidb_server_qps{job="tidb"}[5m])) by(instance) > 10000
for: 5m
labels:
severity: warning
annotations:
summary: “TiDB QPS 过高”
description: “TiDB 实例 {{ labels.instance }} QPS 超过 10000″

– alert: SlowQuery
expr: increase(tidb_server_slow_query_count{job=”tidb”}[5m]) > 10
for: 5m
labels:
severity: warning
annotations:
summary: “TiDB 慢查询过多”
description: “TiDB 实例 {{ labels.instance }} 5分钟内慢查询数超过 10″

– alert: ConnectionOverflow
expr: sum(tidb_server_connections{job=”tidb”}) by(instance) > 5000
for: 5m
labels:
severity: warning
annotations:
summary: “TiDB 连接数过多”
description: “TiDB 实例 {{ labels.instance }} 连接数超过 5000”
EOF

## 2. 存储相关告警规则
$ cat > /tidb/prometheus/rules/storage.rules.yml << EOF groups: - name: storage_alerts rules: - alert: TiKVDiskFull expr: (1 - (node_filesystem_free_bytes{job="node", mountpoint="/tidb/fgdata"} / node_filesystem_size_bytes{job="node", mountpoint="/tidb/fgdata"})) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “TiKV 磁盘空间不足”
description: “TiKV 实例 {{ labels.instance }} 磁盘使用率超过 80%”

– alert: TiKVHighIO
expr: sum by(instance) (rate(node_disk_io_time_seconds_total{job=”node”, device=~”sd.*|nvme.*”}[5m])) > 0.8
for: 5m
labels:
severity: warning
annotations:
summary: “TiKV I/O 使用率过高”
description: “TiKV 实例 {{ labels.instance }} I/O 使用率超过 80%”

– alert: TiKVRaftLogGap
expr: tikv_raftstore_raft_log_gap{job=”tikv”} > 1000
for: 5m
labels:
severity: warning
annotations:
summary: “TiKV Raft 日志差距过大”
description: “TiKV 实例 {{ labels.instance }} Raft 日志差距超过 1000”
EOF

3.3 自定义配置实施方案

3.3.1 自定义监控面板

# 自定义监控面板

## 1. 创建自定义面板
# 访问 http://localhost:3000
# 点击 “+” → “Dashboard”
# 点击 “Add new panel”

## 2. 配置面板
# 面板标题：TiDB 业务指标
# 数据源：Prometheus
# 查询语句：sum(rate(tidb_server_qps{job=”tidb”}[5m])) by(instance)
# 图表类型：Graph
# 轴标签：QPS
# 单位：ops

## 3. 保存面板
# 点击 “Save Dashboard”
# 输入面板名称：TiDB 业务监控
# 点击 “Save”

## 4. 导出面板
# 点击面板右上角的 “Settings”
# 点击 “JSON Model”
# 复制 JSON 内容
# 保存到文件：tidb-business-dashboard.json

## 5. 导入面板
# 点击 “+” → “Import”
# 上传 tidb-business-dashboard.json 文件
# 点击 “Import”

3.3.2 自定义告警通知

# 自定义告警通知

## 1. 配置邮件通知
$ cat > alertmanager.yml << EOF global: resolve_timeout: 5m smtp_smarthost: 'smtp.example.com:587' smtp_from: 'admin@example.com' smtp_auth_username: 'admin@example.com' smtp_auth_password: 'password' route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'email' receivers: - name: 'email' email_configs: - to: 'admin@example.com' send_resolved: true html: '{{ template "email.default.html" . }}' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service'] EOF ## 2. 配置微信通知 $ cat > alertmanager.yml << EOF global: resolve_timeout: 5m route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'wechat' receivers: - name: 'wechat' wechat_configs: - corp_id: 'your_corp_id' api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' to_party: 'your_party_id' agent_id: 'your_agent_id' api_secret: 'your_api_secret' message: title: '{{ template "wechat.default.title" . }}' description: '{{ template "wechat.default.content" . }}' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service'] EOF ## 3. 配置短信通知 $ cat > alertmanager.yml << EOF global: resolve_timeout: 5m route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'sms' receivers: - name: 'sms' webhook_configs: - url: 'http://localhost:8080/sms' send_resolved: true inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service'] EOF

Part04-生产案例与实战讲解

4.1 监控配置案例

监控配置案例：

# 监控配置案例

## 案例1：Prometheus高可用配置

### 步骤1：配置Prometheus主节点
$ cat > prometheus-primary.yml << EOF global: scrape_interval: 15s evaluation_interval: 15s alerting: alertmanagers: - static_configs: - targets: ['localhost:9093'] rule_files: - "rules/*.yml" scrape_configs: - job_name: 'tidb' static_configs: - targets: ['192.168.1.100:9090'] - job_name: 'tikv' static_configs: - targets: ['192.168.1.101:9091', '192.168.1.102:9091', '192.168.1.103:9091'] - job_name: 'pd' static_configs: - targets: ['192.168.1.100:9092'] - job_name: 'node' static_configs: - targets: ['192.168.1.100:9100', '192.168.1.101:9100', '192.168.1.102:9100', '192.168.1.103:9100'] - job_name: 'prometheus' static_configs: - targets: ['localhost:9090', '192.168.1.104:9090'] EOF ### 步骤2：配置Prometheus从节点 $ cat > prometheus-secondary.yml << EOF global: scrape_interval: 15s evaluation_interval: 15s alerting: alertmanagers: - static_configs: - targets: ['localhost:9093'] rule_files: - "rules/*.yml" scrape_configs: - job_name: 'tidb' static_configs: - targets: ['192.168.1.100:9090'] - job_name: 'tikv' static_configs: - targets: ['192.168.1.101:9091', '192.168.1.102:9091', '192.168.1.103:9091'] - job_name: 'pd' static_configs: - targets: ['192.168.1.100:9092'] - job_name: 'node' static_configs: - targets: ['192.168.1.100:9100', '192.168.1.101:9100', '192.168.1.102:9100', '192.168.1.103:9100'] - job_name: 'prometheus' static_configs: - targets: ['localhost:9090', '192.168.1.100:9090'] EOF ### 步骤3：启动Prometheus节点 # 启动主节点 $ prometheus --config.file=prometheus-primary.yml --storage.tsdb.path=/tidb/prometheus/primary/data --storage.tsdb.retention.time=15d # 启动从节点 $ prometheus --config.file=prometheus-secondary.yml --storage.tsdb.path=/tidb/prometheus/secondary/data --storage.tsdb.retention.time=15d ## 案例2：Grafana自定义面板 ### 步骤1：创建业务监控面板 # 访问 http://localhost:3000 # 点击 "+" → "Dashboard" # 点击 "Add new panel" ### 步骤2：配置面板 # 面板标题：TiDB 业务指标 # 数据源：Prometheus # 查询语句：sum(rate(tidb_server_qps{job="tidb"}[5m])) by(instance) # 图表类型：Graph # 轴标签：QPS # 单位：ops ### 步骤3：添加更多指标 # 点击 "Add Query" # 查询语句：sum(rate(tidb_server_slow_query_count{job="tidb"}[5m])) by(instance) # 轴标签：慢查询数 # 单位：count ### 步骤4：保存面板 # 点击 "Save Dashboard" # 输入面板名称：TiDB 业务监控 # 点击 "Save"

4.2 告警配置案例

告警配置案例：

# 告警配置案例

## 案例1：核心组件告警

### 步骤1：创建核心组件告警规则
$ cat > /tidb/prometheus/rules/core.rules.yml << EOF groups: - name: core_alerts rules: - alert: TiDBDown expr: up{job="tidb"} == 0 for: 5m labels: severity: critical annotations: summary: "TiDB 实例宕机" description: "TiDB 实例 {{ labels.instance }} 已宕机超过 5 分钟" - alert: TiKVDown expr: up{job="tikv"} == 0 for: 5m labels: severity: critical annotations: summary: "TiKV 实例宕机" description: "TiKV 实例 {{ labels.instance }} 已宕机超过 5 分钟" - alert: PDDown expr: up{job="pd"} == 0 for: 5m labels: severity: critical annotations: summary: "PD 实例宕机" description: "PD 实例 {{ labels.instance }} 已宕机超过 5 分钟" EOF ### 步骤2：配置告警通知 $ cat > alertmanager.yml << EOF global: resolve_timeout: 5m smtp_smarthost: 'smtp.example.com:587' smtp_from: 'admin@example.com' smtp_auth_username: 'admin@example.com' smtp_auth_password: 'password' route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'email' routes: - match: severity: critical receiver: 'email' continue: true - match: severity: warning receiver: 'email' receivers: - name: 'email' email_configs: - to: 'admin@example.com' send_resolved: true inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service'] EOF ## 案例2：性能告警 ### 步骤1：创建性能告警规则 $ cat > /tidb/prometheus/rules/performance.rules.yml << EOF groups: - name: performance_alerts rules: - alert: HighCPU expr: (sum by(instance) (rate(process_cpu_seconds_total{job="tidb"}[5m])) / (count by(instance) (count_processes{job="tidb"})) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “CPU 使用率过高”
description: “实例 {{ labels.instance }} CPU 使用率超过 80%”

– alert: HighMemory
expr: (sum by(instance) (process_resident_memory_bytes{job=”tidb”})) / (sum by(instance) (machine_memory_bytes{job=”node”})) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “内存使用率过高”
description: “实例 {{ labels.instance }} 内存使用率超过 80%”

– alert: HighDisk
expr: (1 – (node_filesystem_free_bytes{job=”node”, mountpoint=”/tidb/fgdata”} / node_filesystem_size_bytes{job=”node”, mountpoint=”/tidb/fgdata”})) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “磁盘使用率过高”
description: “实例 {{ labels.instance }} 磁盘使用率超过 80%”
EOF

4.3 自定义配置案例

自定义配置案例：

# 自定义配置案例

## 案例1：自定义监控指标

### 步骤1：创建自定义指标脚本
$ cat > custom_metrics.sh << EOF #!/bin/bash # custom_metrics.sh # from:www.itpux.com.qq113257174.wx:itpux-com # web: http://www.fgedu.net.cn # 采集业务指标 QPS=$(mysql -h 192.168.1.100 -P 4000 -u root -p password -e "SHOW GLOBAL STATUS LIKE 'Queries';" | grep Queries | awk '{print $2}') SLOW_QUERIES=$(mysql -h 192.168.1.100 -P 4000 -u root -p password -e "SHOW GLOBAL STATUS LIKE 'Slow_queries';" | grep Slow_queries | awk '{print $2}') # 输出指标 echo "# HELP tidb_business_qps Total QPS" echo "# TYPE tidb_business_qps counter" echo "tidb_business_qps $QPS" echo "# HELP tidb_business_slow_queries Total slow queries" echo "# TYPE tidb_business_slow_queries counter" echo "tidb_business_slow_queries $SLOW_QUERIES" EOF ### 步骤2：配置Prometheus采集自定义指标 $ cat > prometheus.yml << EOF global: scrape_interval: 15s evaluation_interval: 15s alerting: alertmanagers: - static_configs: - targets: ['localhost:9093'] rule_files: - "rules/*.yml" scrape_configs: - job_name: 'tidb' static_configs: - targets: ['192.168.1.100:9090'] - job_name: 'custom' static_configs: - targets: ['localhost:9101'] metrics_path: '/metrics' EOF ### 步骤3：启动自定义指标服务 $ nohup bash -c 'while true; do ./custom_metrics.sh > /tidb/custom/metrics.prom; sleep 15; done’ &
$ python3 -m http.server 9101 –directory /tidb/custom

## 案例2：自定义告警通知

### 步骤1：创建告警通知脚本
$ cat > alert_notify.py << EOF #!/usr/bin/env python3 # alert_notify.py # from:www.itpux.com.qq113257174.wx:itpux-com # web: http://www.fgedu.net.cn import json import sys import requests # 读取告警数据 alert_data = json.loads(sys.stdin.read()) # 处理告警 for alert in alert_data['alerts']: status = alert['status'] labels = alert['labels'] annotations = alert['annotations'] # 发送通知 print(f"Status: {status}") print(f"Alertname: {labels.get('alertname')}") print(f"Severity: {labels.get('severity')}") print(f"Summary: {annotations.get('summary')}") print(f"Description: {annotations.get('description')}") print("---") EOF ### 步骤2：配置Alertmanager使用自定义通知 $ cat > alertmanager.yml << EOF global: resolve_timeout: 5m route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'custom' receivers: - name: 'custom' webhook_configs: - url: 'http://localhost:8080/notify' send_resolved: true inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service'] EOF ### 步骤3：启动通知服务 $ cat > notify_server.py << EOF #!/usr/bin/env python3 from http.server import HTTPServer, BaseHTTPRequestHandler import json import subprocess class NotifyHandler(BaseHTTPRequestHandler): def do_POST(self): content_length = int(self.headers['Content-Length']) post_data = self.rfile.read(content_length) # 调用通知脚本 process = subprocess.Popen(['python3', 'alert_notify.py'], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True) stdout, stderr = process.communicate(input=post_data.decode('utf-8')) # 响应 self.send_response(200) self.end_headers() self.wfile.write(b'OK') if __name__ == '__main__': server = HTTPServer(('localhost', 8080), NotifyHandler) server.serve_forever() EOF $ nohup python3 notify_server.py &

风哥提示：监控与告警的自定义配置需要根据实际业务场景进行调整，不同的业务需求需要不同的配置策略。学习交流加群风哥QQ113257174

Part05-风哥经验总结与分享

5.1 最佳实践

最佳实践：

# 最佳实践

## 1. 监控最佳实践
– 全面覆盖：监控所有TiDB组件和主机
– 重点监控：重点监控关键指标和核心功能
– 实时监控：实时采集和展示监控数据
– 历史数据：存储足够的历史监控数据，便于趋势分析
– 监控演练：定期进行监控演练，确保监控系统正常运行

## 2. 告警最佳实践
– 分级告警：根据告警的严重程度划分级别
– 准确告警：减少误报和漏报
– 有效通知：确保告警信息及时送达
– 快速响应：缩短故障响应时间
– 持续改进：不断优化告警规则

## 3. 自定义配置最佳实践
– 按需定制：根据业务需求定制监控和告警
– 标准化配置：建立标准化的监控和告警配置
– 版本控制：对配置文件进行版本控制
– 文档化：详细记录配置的用途和变更历史
– 测试验证：对配置进行测试验证，确保其有效性

## 4. 性能优化最佳实践
– 合理配置：根据系统规模和业务需求合理配置监控系统
– 资源管理：合理管理监控系统的资源使用
– 存储优化：优化监控数据的存储和查询
– 网络优化：优化监控数据的传输
– 定期维护：定期维护和优化监控系统

## 5. 运维管理最佳实践
– 建立流程：建立监控和告警的管理流程
– 责任明确：明确监控和告警的责任分工
– 培训学习：定期对运维人员进行培训
– 经验分享：分享监控和告警的经验和最佳实践
– 持续改进：不断改进监控和告警体系

5.2 常见问题与解决方案

常见问题与解决方案：

# 常见问题与解决方案

## 1. 监控系统问题

### 问题1：监控数据丢失
– 原因：Prometheus存储配置不当，或磁盘空间不足
– 解决方案：调整Prometheus的存储配置，确保磁盘空间充足

### 问题2：监控数据采集失败
– 原因：网络连接问题，或目标服务未运行
– 解决方案：检查网络连接，确保目标服务正常运行

### 问题3：监控系统性能下降
– 原因：监控数据量过大，或配置不当
– 解决方案：调整监控采集频率，优化存储配置

## 2. 告警系统问题

### 问题1：告警误报
– 原因：告警阈值设置不合理，或监控数据异常
– 解决方案：调整告警阈值，检查监控数据的准确性

### 问题2：告警漏报
– 原因：告警规则配置不当，或监控数据采集失败
– 解决方案：检查告警规则配置，确保监控数据采集正常

### 问题3：告警风暴
– 原因：多个告警同时触发，或告警规则过于敏感
– 解决方案：使用告警聚合和抑制，调整告警规则

## 3. 自定义配置问题

### 问题1：自定义指标采集失败
– 原因：脚本执行失败，或网络连接问题
– 解决方案：检查脚本执行情况，确保网络连接正常

### 问题2：自定义告警规则不生效
– 原因：规则语法错误，或指标名称不正确
– 解决方案：检查规则语法，确保指标名称正确

### 问题3：自定义面板显示异常
– 原因：查询语句错误，或数据源配置不当
– 解决方案：检查查询语句，确保数据源配置正确

5.3 未来发展

未来发展：

# 未来发展

## 1. 监控技术发展
– 智能化监控：使用AI技术自动识别异常和预测故障
– 分布式监控：使用分布式技术提高监控系统的可扩展性
– 实时监控：提高监控数据的实时性和准确性
– 可视化监控：提供更直观、更丰富的监控可视化
– 一体化监控：集成监控、告警、日志和追踪

## 2. 告警技术发展
– 智能告警：使用AI技术自动分析告警，减少误报
– 预测性告警：预测潜在故障，提前告警
– 自动化响应：自动执行故障处理流程
– 多渠道通知：支持更多的告警通知渠道
– 告警管理平台：提供统一的告警管理平台

## 3. 自定义配置发展
– 模板化配置：提供标准化的配置模板
– 自动化配置：使用工具自动生成配置
– 动态配置：根据系统状态自动调整配置
– 云原生配置：支持云环境的配置管理
– 配置管理工具：提供专门的配置管理工具

## 4. 工具支持发展
– 集成工具：集成更多的监控和告警工具
– 开源工具：使用更多的开源监控和告警工具
– 云服务：使用云厂商提供的监控和告警服务
– 容器化：支持容器环境的监控和告警
– DevOps集成：与DevOps工具链集成

## 5. 生态系统发展
– 标准规范：建立监控和告警的标准规范
– 社区支持：活跃的社区支持和贡献
– 培训认证：提供监控和告警的培训和认证
– 最佳实践：分享行业最佳实践
– 案例库：建立监控和告警的案例库

风哥总结：监控与告警是数据库运维的重要组成部分，合理的监控与告警配置可以帮助我们及时发现和解决问题。在实际应用中，需要根据具体业务场景进行调整，不断总结经验，持续优化。更多学习教程公众号风哥教程itpux_com

风哥提示：监控与告警的配置需要结合实际业务场景进行调整，不同的业务需求需要不同的配置策略。from tidb视频:www.itpux.com

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html