1. 首页 > KubeSphere教程 > 正文

KubeSphere教程FG007-KubeSphere节点管理与监控面板使用实战

内容简介

本篇文章详细介绍KubeSphere的节点管理与监控面板使用方法,帮助读者掌握节点管理和监控的技巧。风哥教程参考KubeSphere官方文档节点管理和监控相关内容,结合生产环境实战经验,为企业级Kubernetes平台的节点管理和监控提供指导。

文章涵盖KubeSphere节点管理、监控面板使用、资源监控、告警配置等内容,旨在帮助读者构建高效的节点管理和监控体系。 风哥提示:

目录大纲

Part01-基础概念与理论知识

1.1 KubeSphere节点管理架构

KubeSphere的节点管理架构包括:

  • 节点生命周期管理:节点的添加、删除、维护等
  • 节点资源管理:CPU、内存、存储等资源的管理
  • 节点健康检查:节点状态的监控和检查
  • 节点标签管理:通过标签对节点进行分类和管理

1.2 监控系统核心概念

监控系统的核心概念包括:

  • 指标收集:收集节点、Pod、服务等的监控指标
  • 指标存储:存储收集到的监控指标
  • 指标展示:通过监控面板展示监控指标
  • 告警管理:基于监控指标触发告警

1.3 监控指标体系

监控指标体系包括:

  • 节点指标:CPU、内存、磁盘、网络等
  • Pod指标:CPU、内存、网络等
  • 服务指标:请求数、响应时间等
  • 集群指标:整体资源使用情况等

Part02-生产环境规划与建议

2.1 节点硬件规划

节点硬件规划建议: 学习交流加群风哥微信: itpux-com

  • 控制节点:至少4核CPU,8GB内存,50GB磁盘空间
  • 工作节点:根据应用需求配置,建议至少4核CPU,8GB内存
  • 存储:使用SSD存储,提高IO性能
  • 网络:使用10Gbps网络,确保集群通信效率

2.2 监控系统规划

监控系统规划建议:

  • 指标收集:使用Prometheus收集监控指标
  • 指标存储:配置合适的存储策略,确保数据安全
  • 指标展示:使用Grafana创建监控面板
  • 监控频率:根据实际需求配置监控频率

2.3 告警策略规划

告警策略规划建议:

  • 告警级别:根据严重程度设置不同的告警级别
  • 告警规则:根据业务需求配置告警规则
  • 告警通知:配置邮件、短信等通知方式
  • 告警处理:制定告警处理流程

Part03-生产环境项目实施方案

3.1 节点管理配置

节点管理配置步骤: 学习交流加群风哥QQ113257174

# 查看节点状态
kubectl get nodes
NAME             STATUS   ROLES                  AGE   VERSION
fgedu-master-01  Ready    control-plane,master   2d    v1.26.0
fgedu-worker-01  Ready    worker                 2d    v1.26.0
fgedu-worker-02  Ready    worker                 2d    v1.26.0

# 查看节点详情
kubectl describe node fgedu-worker-01
Name:               fgedu-worker-01
Roles:              worker,
Labels:             beta.kubernetes.io/arch=amd64
                    beta.kubernetes.io/os=linux
                    kubernetes.io/arch=amd64
                    kubernetes.io/hostname=fgedu-worker-01
                    kubernetes.io/os=linux
                    node-role.kubernetes.io/worker=true
Annotations:        kubeadm.alpha.kubernetes.io/cri-socket: /var/run/dockershim.sock
                    node.alpha.kubernetes.io/ttl: "0"
                    volumes.kubernetes.io/controller-managed-attach-detach: "true"
CreationTimestamp:  Wed, 08 Apr 2026 10:00:00 +0000
Taints:             
Unschedulable:      false
Conditions:
  Type             Status  LastHeartbeatTime                 LastTransitionTime                Reason                       Message
  ----             ------  -----------------                 ------------------                ------                       -------
  Ready            True    Fri, 10 Apr 2026 10:00:00 +0000   Thu, 09 Apr 2026 10:00:00 +0000   KubeletReady                 kubelet is posting ready status
Addresses:
  InternalIP:  192.168.1.101
  Hostname:    fgedu-worker-01
Capacity:
  cpu:                8
  ephemeral-storage:  100Gi
  hugepages-2Mi:      0
  memory:             16Gi
  pods:               110
Allocatable:
  cpu:                7900m
  ephemeral-storage:  90Gi
  hugepages-2Mi:      0
  memory:             15Gi
  pods:               110
System Info:
  Machine ID:                 12345678-1234-1234-1234-1234567890ab
  System UUID:                12345678-1234-1234-1234-1234567890ab
  Boot ID:                    12345678-1234-1234-1234-1234567890ab
  Kernel Version:             5.14.0-284.30.1.el9_2.x86_64
  OS Image:                   Oracle Linux Server 9.3
  Operating System:           linux
  Architecture:               amd64
  Container Runtime Version:  docker://20.10.21
  Kubelet Version:            v1.26.0
  Kube-Proxy Version:         v1.26.0
PodCIDR:                      10.233.64.0/24
PodCIDRs:                     10.233.64.0/24
Non-terminated Pods:          (10 in total)
  Namespace                   Name                                  CPU Requests  CPU Limits  Memory Requests  Memory Limits
  ---------                   ----                                  ------------  ----------  ---------------  -------------,
  default                     nginx-6799fc88d8-5k8z8                100m (1%)     200m (2%)   256Mi (1%)       512Mi (3%)    
  kube-system                 calico-node-xyz78                     250m (3%)     500m (6%)   256Mi (1%)       512Mi (3%)    
  kube-system                 kube-proxy-abc12                      100m (1%)     200m (2%)   128Mi (0%)       256Mi (1%)    
Allocated resources:
  (Total limits may be over 100 percent, i.e., overcommitted.)
  Resource           Requests    Limits
  --------           --------    ------
  cpu                1100m (13%)  2200m (27%)
  memory             1.5Gi (10%)  3Gi (20%)
Events:              

3.2 监控系统配置

监控系统配置步骤: 更多视频教程www.fgedu.net.cn

# 检查监控组件状态
kubectl get pods -n kubesphere-monitoring-system
NAME                                      READY   STATUS    RESTARTS   AGE
prometheus-k8s-0                          3/3     Running   0          2d
prometheus-k8s-1                          3/3     Running   0          2d
grafana-6f7d4997d8-5k8z8                 1/1     Running   0          2d
alertmanager-main-0                       2/2     Running   0          2d
kube-state-metrics-5d6f7d9445-xyz78       3/3     Running   0          2d
node-exporter-abc12                       2/2     Running   0          2d
node-exporter-def34                       2/2     Running   0          2d
node-exporter-ghi56                       2/2     Running   0          2d

3.3 告警系统配置

告警系统配置步骤:

# 查看告警规则
kubectl get prometheusrules -n kubesphere-monitoring-system
NAME                                    AGE
kubesphere-alerting-rules               2d
kubernetes-apps                         2d
kubernetes-resources                    2d
kubernetes-storage                      2d
kubernetes-system                       2d
node                                    2d
prometheus                              2d

Part04-生产案例与实战讲解

4.1 节点管理实战

节点管理实战: 更多学习教程公众号风哥教程itpux_com

# 给节点添加标签
kubectl label node fgedu-worker-01 role=production
node/fgedu-worker-01 labeled

# 查看节点标签
kubectl get nodes --show-labels
NAME             STATUS   ROLES                  AGE   VERSION   LABELS
fgedu-master-01  Ready    control-plane,master   2d    v1.26.0   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=fgedu-master-01,kubernetes.io/os=linux,node-role.kubernetes.io/control-plane=true,node-role.kubernetes.io/master=true
fgedu-worker-01  Ready    worker                 2d    v1.26.0   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=fgedu-worker-01,kubernetes.io/os=linux,node-role.kubernetes.io/worker=true,role=production
fgedu-worker-02  Ready    worker                 2d    v1.26.0   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=fgedu-worker-02,kubernetes.io/os=linux,node-role.kubernetes.io/worker=true

4.2 监控面板使用实战

监控面板使用实战:

# 查看Grafana访问地址
kubectl get svc -n kubesphere-monitoring-system grafana
NAME      TYPE       CLUSTER-IP     EXTERNAL-IP   PORT(S)        AGE
grafana   NodePort   10.233.44.18           30880:30880/TCP   2d

4.3 告警配置与处理实战

告警配置与处理实战: from K8S+DB视频:www.itpux.com

# 查看当前告警
kubectl get alerts -n kubesphere-monitoring-system
NAME                                    STATUS      AGE
KubePodCrashLooping                     firing      10m
KubeNodeNotReady                        inactive    2d
KubePersistentVolumeFillingUp           inactive    2d
KubeCPUOvercommit                       inactive    2d
KubeMemOvercommit                       inactive    2d

Part05-风哥经验总结与分享

5.1 节点管理最佳实践

  • 节点标签管理:使用标签对节点进行分类和管理
  • 节点资源管理:合理分配节点资源,避免资源浪费
  • 节点健康检查:定期检查节点健康状态
  • 节点维护:制定节点维护计划,确保节点稳定运行
  • 节点扩容:根据业务需求适时扩容节点

5.2 监控系统最佳实践

  • 监控指标选择:选择关键监控指标,避免监控过多
  • 监控频率配置:根据实际需求配置监控频率
  • 监控数据存储:配置合适的存储策略,确保数据安全
  • 监控面板设计:设计直观、实用的监控面板
  • 监控告警配置:配置合理的告警规则,避免误告警

5.3 常见问题与解决方案

  • 节点状态异常:检查节点网络连接,确保节点通信正常
  • 监控数据缺失:检查监控组件状态,确保监控系统正常运行
  • 告警过多:调整告警规则,减少误告警
  • 监控面板无法访问:检查网络配置,确保网络连接正常

在使用监控面板时,建议根据业务需求自定义监控面板,以便更直观地监控系统状态。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

联系我们

在线咨询:点击这里给我发消息

微信号:itpux-com

工作日:9:30-18:30,节假日休息