Linux教程FG592-大规模K8s集群自动化运维与监控

Part01-基础概念与理论知识

1.1 自动化运维概念

自动化运维是通过工具和脚本实现对IT系统的自动管理、监控、部署和维护，减少人工干预，更多视频教程www.fgedu.net.cn提高运维效率和可靠性。在Kubernetes环境中，自动化运维包括集群配置管理、应用部署、监控告警、故障处理等多个方面。

1.2 K8s监控体系

Kubernetes监控体系通常包括以下几个层次：

基础设施监控：节点CPU、内存、磁盘、网络等
集群监控：API Server、etcd、调度器等核心组件
应用监控：Pod、服务、容器等
业务监控：应用性能、用户体验等

风哥提示：监控体系需要覆盖全栈，从基础设施到业务应用，确保端到端的可观测性。

1.3 自动化工具生态

常用的K8s自动化运维工具包括：

监控工具：Prometheus、Grafana、AlertManager
日志管理：ELK Stack、Fluentd、Loki
配置管理：Ansible、Terraform
CI/CD：Jenkins、GitLab CI、Argo CD
集群管理：kubectl、k9s、Lens

Part02-生产环境规划与建议

2.1 监控架构规划

在大规模K8s集群中，监控架构需要考虑以下因素：

监控数据采集方式：Agent方式（Node Exporter）、API方式（kube-state-metrics）
数据存储：Prometheus本地存储、远程存储（Thanos、Victoria Metrics）
告警策略：分级告警、静默期、告警抑制
可视化：Grafana dashboards、统一监控平台

2.2 自动化运维流程设计

自动化运维流程设计包括：

集群配置管理：使用Ansible或Terraform管理集群配置
应用部署：使用Helm或Kustomize进行应用部署
日常维护：自动备份、证书轮换、版本升级
故障处理：自动故障检测、故障转移、自愈

from Linux:www.itpux.com

2.3 资源与权限规划

资源与权限规划包括：

监控资源：为Prometheus、Grafana等监控组件分配足够的资源
存储资源：为监控数据分配适当的存储容量和性能
权限管理：使用RBAC控制对监控系统的访问
网络策略：确保监控组件之间的通信安全

风哥提示：监控系统本身也需要被监控，确保监控系统的高可用性。

Part03-生产环境项目实施方案

3.1 监控系统部署

使用Helm部署Prometheus和Grafana：

# 添加Prometheus Helm仓库

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

“prometheus-community” has been added to your repositories

# 部署Prometheus Stack

helm install prometheus prometheus-community/kube-prometheus-stack --namespace monitoring --create-namespace

NAME: prometheus

LAST DEPLOYED: Mon Apr 3 10:00:00 2026

NAMESPACE: monitoring

STATUS: deployed

from PG视频:www.itpux.com

REVISION: 1

NOTES:…

3.2 自动化脚本开发

创建自动化运维脚本，用于集群日常维护：

#!/bin/bash
# cluster-maintenance.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: http://www.fgedu.net.cn

# 检查集群状态
function check_cluster() {
    echo "检查集群状态..."
    kubectl get nodes
    kubectl get pods --all-namespaces | grep -E 'CrashLoopBackOff|Error'
}

# 备份etcd
function backup_etcd() {
    echo "备份etcd..."
    ETCDCTL_API=3 etcdctl snapshot save /backup/etcd-snapshot-$(date +%Y%m%d%H%M%S).db \
        --endpoints=https://192.168.1.10:2379 \
        --cacert=/etc/kubernetes/pki/etcd/ca.crt \
        --cert=/etc/kubernetes/pki/etcd/server.crt \
        --key=/etc/kubernetes/pki/etcd/server.key
}

# 清理未使用的镜像
function cleanup_images() {
    echo "清理未使用的镜像..."
    kubectl get nodes -o name | xargs -I {} ssh {} "docker system prune -f"
}

# 主函数
function main() {
    check_cluster
    backup_etcd
    cleanup_images
    echo "维护完成！"
}

main

3.3 告警策略配置

配置Prometheus告警规则：

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: kubernetes-cluster-rules
  namespace: monitoring
spec:
  groups:
  - name: kubernetes-cluster
    rules:
    - alert: HighNodeCPU
      expr: (sum by(instance) (rate(node_cpu_seconds_total{mode!="idle"}[5m])) / sum by(instance) (rate(node_cpu_seconds_total[5m])) * 100 > 80
      for: 5m
      labels:
        severity: warning
      annotations:
        summary: "高节点CPU使用率"
        description: "节点 {{ $labels.instance }} CPU使用率超过80%"
    - alert: HighNodeMemory
      expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85
      for: 5m
      labels:
        severity: warning
      annotations:
        summary: "高节点内存使用率"
        description: "节点 {{ $labels.instance }} 内存使用率超过85%"

Part04-生产案例与实战讲解

4.1 大规模集群监控部署

实战案例：部署Thanos实现监控数据长期存储和高可用：

# 部署Thanos Query

helm install thanos bitnami/thanos --namespace monitoring --set query.enabled=true --set store.enabled=true

NAME: thanos

LAST DEPLOYED: Mon Apr 3 11:00:00 2026

NAMESPACE: monitoring

STATUS: deployed

REVISION: 1

4.2 自动化运维脚本实战

实战案例：使用Ansible批量管理K8s节点：

---
# k8s-node-maintenance.yml
- name: K8s节点维护
  hosts: k8s_nodes
  become: yes
  tasks:
    - name: 更新系统包
      dnf:
        name: '*'
        state: latest
    
    - name: 重启kubelet服务
      service:
        name: kubelet
        state: restarted
    
    - name: 检查节点状态
      command: kubectl get node {{ inventory_hostname }}
      delegate_to: localhost
      register: node_status
    
    - name: 显示节点状态
      debug:
        msg: "{{ node_status.stdout }}"

# 执行Ansible playbook

ansible-playbook k8s-node-maintenance.yml

PLAY [K8s节点维护] ****************************************************

TASK [Gathering Facts] **************************************************

ok: [k8s-node1]

ok: [k8s-node2]

…

PLAY RECAP **************************************************************

k8s-node1 : ok=4 changed=2 unreachable=0 failed=0 skipped=0 rescued=0 ignored=0

k8s-node2 : ok=4 changed=2 unreachable=0 failed=0 skipped=0 rescued=0 ignored=0

4.3 告警与故障处理案例

实战案例：处理节点磁盘空间不足告警：

# 检查节点磁盘使用情况

kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.capacity.storage}{"\n"}{end}'

k8s-node1 100Gi

k8s-node2 100Gi

k8s-node3 100Gi

# 登录节点检查磁盘使用

ssh k8s-node1 "df -h"

Filesystem Size Used Avail Use% Mounted on

/dev/sda1 98G 90G 3.2G 97% /

tmpfs 3.9G 0 3.9G 0% /dev/shm

…

# 清理Docker镜像和容器

ssh k8s-node1 "docker system prune -af"

Total reclaimed space: 25.3GB

Part05-风哥经验总结与分享

5.1 自动化运维最佳实践

标准化配置：使用配置管理工具（Ansible、Terraform）标准化集群配置，确保环境一致性。
分层监控：建立从基础设施到业务应用的分层监控体系，实现端到端可观测性。
自动化脚本：开发可复用的自动化脚本，减少人工操作，提高运维效率。
告警策略：制定合理的告警策略，避免告警风暴，确保重要告警及时处理。
定期演练：定期进行故障演练，提高团队应急响应能力。

5.2 常见问题与解决方案

监控数据量大：使用Thanos或Victoria Metrics进行长期存储，实现监控数据的压缩和归档。
告警噪音：设置合理的告警阈值和静默期，使用告警抑制减少重复告警。
自动化脚本故障：添加错误处理和日志记录，确保脚本执行的可靠性。
权限管理复杂：使用RBAC和命名空间隔离，实现最小权限原则。

5.3 未来发展趋势

AI驱动的运维：利用AI技术分析监控数据，预测故障，实现智能运维。
GitOps：使用Git作为基础设施和应用配置的单一来源，实现基础设施即代码。
服务网格：集成服务网格（如Istio），实现更细粒度的监控和流量管理。
多集群管理：使用Cluster API或云厂商的多集群管理工具，实现大规模多集群的统一管理。

更多视频教程www.fgedudb.net.cn

风哥提示：自动化运维是一个持续改进的过程，需要不断优化和完善。