Linux教程FG575-大规模K8s集群监控告警体系优化

Part01-基础概念与理论知识

1.1 监控告警基础

监控告警是保证Kubernetes集群稳定运行的重要手段，主要包括：

监控：收集、存储和展示集群和应用的运行状态数据
告警：当监控指标超过阈值时，触发告警通知
可观测性：通过监控、日志和追踪三个维度，全面了解系统状态

1.2 Kubernetes监控架构

Kubernetes监控架构主要包括以下组件：

Prometheus：时序数据库，用于存储监控指标
Grafana：可视化平台，用于展示监控数据
AlertManager：告警管理，处理告警通知
Node Exporter：收集节点级别的监控指标
Kube-state-metrics：收集Kubernetes资源的状态指标
cAdvisor：收集容器级别的监控指标

from PG视频:www.itpux.com

1.3 监控指标体系

监控指标体系包括：

节点指标：CPU、内存、磁盘、网络等
Pod指标：CPU、内存、网络、磁盘I/O等
容器指标：CPU使用率、内存使用率、网络流量等
Kubernetes资源指标：Pod状态、Deployment副本数、Service流量等
应用指标：业务指标、API调用量、错误率等

Part02-生产环境规划与建议

2.1 监控架构规划

监控架构规划应考虑以下因素：

扩展性：支持大规模集群的监控需求
高可用性：监控系统本身的高可用
性能：保证监控数据的实时性和准确性
存储：合理规划监控数据的存储方案

风哥提示：大规模集群建议采用Prometheus联邦集群架构，分散监控压力。

2.2 资源规划

资源规划包括：

Prometheus资源：根据集群规模和监控指标数量，配置足够的CPU和内存
存储资源：根据监控数据保留时间，配置足够的存储空间
网络资源：确保监控组件之间的网络通信顺畅

2.3 告警策略规划

告警策略规划应考虑：

告警级别：根据影响程度设置不同级别的告警
告警规则：合理设置告警阈值，避免误报和漏报
告警通知：配置多种通知渠道，确保告警及时送达
告警聚合：对相关告警进行聚合，减少告警风暴

from Linux:www.itpux.com

Part03-生产环境项目实施方案

3.1 监控系统部署

部署监控系统：

3.1.1 使用Helm部署Prometheus

# 添加Prometheus Helm仓库
$ helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

# 部署Prometheus
$ helm install prometheus prometheus-community/kube-prometheus-stack –namespace monitoring –create-namespace

3.1.2 配置Prometheus高可用

apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
name: prometheus
namespace: monitoring
spec:
replicas: 2
serviceAccountName: prometheus
serviceMonitorSelector:
matchLabels:
team: frontend
resources:
requests:
memory: 4Gi
cpu: 2
limits:
memory: 8Gi
cpu: 4

3.2 告警规则配置

配置告警规则：

3.2.1 节点告警规则

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
name: node-alerts
namespace: monitoring
spec:
groups:
– name: node.rules
rules:
– alert: NodeHighCPUUsage
expr: (sum(node_cpu_seconds_total{mode!=”idle”}) by (instance) / sum(node_cpu_seconds_total) by (instance)) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “节点CPU使用率过高”
description: “节点 {{ $labels.instance }} CPU使用率超过80%，当前值: {{ $value }}%”
– alert: NodeHighMemoryUsage
expr: (node_memory_MemTotal_bytes – node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85
for: 5m
labels:
severity: warning
annotations:
summary: “节点内存使用率过高”
description: “节点 {{ $labels.instance }} 内存使用率超过85%，当前值: {{ $value }}%”

3.2.2 Pod告警规则

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
name: pod-alerts
namespace: monitoring
spec:
groups:
– name: pod.rules
rules:
– alert: PodHighCPUUsage
expr: sum(rate(container_cpu_usage_seconds_total{container!=””}[$1m])) by (pod, namespace) / sum(kube_pod_container_resource_limits_cpu_cores) by (pod, namespace) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: “Pod CPU使用率过高”
description: “Pod {{ $labels.pod }} 在命名空间 {{ $labels.namespace }} 中CPU使用率超过80%，当前值: {{ $value }}%”
– alert: PodHighMemoryUsage
expr: sum(container_memory_usage_bytes{container!=””}) by (pod, namespace) / sum(kube_pod_container_resource_limits_memory_bytes) by (pod, namespace) * 100 > 85
for: 5m
labels:
severity: warning
annotations:
summary: “Pod内存使用率过高”
description: “Pod {{ $labels.学习交流加群风哥微信: itpux-compod }} 在命名空间 {{ $labels.namespace }} 中内存使用率超过85%，当前值: {{ $value }}%”

3.3 数据存储优化

优化监控数据存储：

3.3.1 配置Prometheus存储

apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
name: prometheus
namespace: monitoring
spec:
storage:
volumeClaimTemplate:
spec:
storageClassName: managed-nfs-storage
resources:
requests:
storage: 100Gi
retention: 15d
scrapeInterval: 15s
evaluationInterval: 15s

3.3.2 使用Thanos实现长期存储

# 部署Thanos
$ helm install thanos bitnami/thanos –namespace monitoring

# 配置Prometheus与Thanos集成
apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
name: prometheus
namespace: monitoring
spec:
thanos:
baseImage: quay.io/thanos/thanos
version: v0.28.0
objectStorageConfig:
key: thanos.yaml
name: thanos-objstore-config

Part04-生产案例与实战讲解

4.1 大规模集群监控部署

大规模集群监控部署案例：

4.更多视频教程www.fgedu.net.cn1.1 架构设计

使用Prometheus联邦集群，主Prometheus负责聚合数据
每个可用区部署一个Prometheus实例，负责收集该区域的监控数据
使用Thanos实现跨区域数据查询和长期存储
使用Grafana作为统一的可视化平台

4.1.2 实施步骤

# 部署区域Prometheus
$ helm install prometheus-zone1 prometheus-community/kube-prometheus-stack –namespace monitoring –create-namespace –set prometheus.prometheusSpec.externalLabels.zone=zone1

$ helm install prometheus-zone2 prometheus-community/kube-prometheus-stack –namespace monitoring –create-namespace –set prometheus.prometheusSpec.externalLabels.zone=zone2

# 部署主Prometheus
$ helm install prometheus-main prometheus-community/kube-prometheus-stack –namespace monitoring –set prometheus.prometheusSpec.federateResources.namespaces[0]=monitoring

4.1.3 验证监控效果

# 查看Prometheus状态
$ kubectl get pods -n monitoring
NAME READY STATUS RESTARTS AGE
prometheus-prometheus-0 2/2 Running 0 10m
prometheus-zone1-prometheus-0 2/2 Running 0 10m
prometheus-zone2-prometheus-0 2/2 Running 0 10m

# 查看Grafana状态
$ kubectl get pods -n monitoring | grep grafana
grafana-6f8b7c97c6-2k8z5 1/1 Running 0 10m

4.2 告警规则优化案例

告警规则优化案例：

4.2.1 问题分析

告警过多，导致告警风暴
告警阈值设置不合理，导致误报
告警通知渠道单一，导致告警未及时处理

4.2.2 优化方案

# 配置告警聚合
apiVersion: monitoring.coreos.com/v1
kind: AlertmanagerConfig
metadata:
name: alertmanager-config
namespace: monitoring
spec:
route:
groupBy: [‘alertname’, ‘cluster’, ‘service’]
groupWait: 30s
groupInterval: 5m
repeatInterval: 4h
receiver: ’email’
receivers:
– name: ’email’
emailConfigs:
– to: ‘admin@fgedu.net.cn’
from: ‘alertmanager@fgedu.net.cn’
smarthost: ‘smtp.fgedu.net.cn:587’
authUsername: ‘alertmanager’
authPassword:
name: alertmanager-secret
key: password

4.3 监控数据存储优化

监控数据存储优化案例：

4.3.1 问题分析

监控数据增长过快，存储成本增加
查询性能下降，影响监控体验
数据保留时间不足，无法进行长期趋势分析

4.3.2 优化方案

# 配置Prometheus存储压缩
apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
name: prometheus
namespace: monitoring
spec:
storage:
volumeClaimTemplate:
spec:
storageClassName: managed-nfs-storage
resources:
requests:
storage: 200Gi
retention: 7d
retentionSize: “100GB”
scrapeInterval: 30s
evaluationInterval: 30s

# 配置Thanos长期存储
apiVersion: v1
kind: ConfigMap
metadata:
name: thanos-objstore-config
namespace: monitoring
data:
thanos.yaml: |
type: S3
config:
bucket: thanos
endpoint: s3.amazonaws.com
access_key: “AKIA…”
secret_key: “…”
region: us-east-1

Part05-风哥经验总结与分享

在大规模Kubernetes集群中优化监控告警体系时，需要注意以下几点：

架构设计：采用分布式监控架构，分散监控压力
资源配置：根据集群规模和监控需求，合理配置监控组件的资源
告警规则：精细化配置告警规则，减少误报和漏报
数据存储：使用分层存储策略，热数据存储在本地，冷数更多学习教程公众号风哥教程itpux_com据存储在对象存储
可视化：配置多维度的监控面板，直观展示集群状态
告警通知：配置多种通知渠道，确保告警及时送达
性能优化：优化Prometheus的配置，提高查询性能
持续改进：定期分析监控数据，优化监控策略

风哥提示：监控告警体系的优化是一个持续的过程，需要根据实际运行情况不断调整和完善。