Linux教程FG596-大规模K8s应用高可用与故障转移策略

Part01-基础概念与理论知识

1.1 高可用概念

高可用（High Availability，HA）是指系统在面对各种故障时，仍然能够保持正常运行的能力。在Kubernetes环境中，高可用包括集群高可用和应用高可用两个层面。集群高可用确保Kubernetes控制平面的可靠性，应用高可用确保应用服务的连续性。

1.2 故障转移原理

故障转移（Failover）是指当系统中的某个组件发生故障时，系统能够自动将工作负载转移到其他正常的组件上，以确保服务的连续性。Kubernetes中的故障转移主要通过以下机制实现：

健康检查：通过探针（Probe）检测容器和应用的健康状态
控制器：如Deployment、StatefulSet等控制器负责管理Pod的生命周期
服务发现：通过Service实现流量的自动路由
负载均衡：在多个Pod之间分发流量

风哥提示：故障转移的关键是快速检测故障并将流量转移到健康的实例上，减少服务中断时间。

1.3 K8s高可用架构

Kubernetes高可用架构包括：

控制平面高可用：多master节点部署，确保控制平面的可靠性
etcd高可用：etcd集群部署，确保数据的一致性和可靠性
应用高可用：多副本部署，通过Deployment、StatefulSet等实现
网络高可用：多网络路径，确保网络通信的可靠性
存储高可用：使用冗余存储，确保数据的安全性和可靠性

Part02-生产环境规划与建议

2.1 高可用架构设计

生产环境中，高可用架构设计应考虑：

控制平面部署：至少3个master节点，分布在不同的可用区
etcd部署：至少3个etcd节点，采用奇数个节点以避免脑裂
应用部署：多副本部署，副本数根据应用重要性和负载确定
网络设计：多网络接口，实现网络冗余
存储设计：使用高可用存储，如分布式存储或云存储

2.2 故障转移策略制定

故障转移策略制定应考虑：

故障检测机制：设置合理的健康检查参数
故障转移速度：优化故障检测和转移时间
负载均衡策略：选择合适的负载均衡算法
会话保持：确保故障转移后会话不丢失
自动恢复：故障恢复后自动重新加入集群

from Linux:www.itpux.com

2.3 容灾方案规划

容灾方案规划应考虑：

本地容灾：同城多可用区部署
异地容灾：跨区域部署，实现地理级容灾
数据同步：确保主备集群数据的一致性
故障切换：制定详细的故障切换流程
恢复演练：定期进行容灾演练，验证方案的有效性

风哥提示：容灾方案是高可用架构的重要组成部分，需要根据业务重要性和RTO/RPO要求制定。

Part03-生产环境项目实施方案

3.1 应用高可用配置

配置应用高可用：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: fgedu-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: fgedu-app
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 1
      maxUnavailable: 0
  template:
    metadata:
      labels:
        app: fgedu-app
    spec:
      containers:
      - name: fgedu-app
        image: fgedu/app:latest
        ports:
        - containerPort: 8080
        readinessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 30
          periodSeconds: 10
          timeoutSeconds: 5
          successThreshold: 1
          failureThreshold: 3
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 60
          periodSeconds: 20
          timeoutSeconds: 5
          successThreshold: 1
          failureThreshold: 3
        resources:
          limits:
            cpu: "1"
            memory: "512Mi"
          requests:
            cpu: "500m"
            memory: "256Mi"

3.2 故障转移机制设置

设置服务和负载均衡：

apiVersion: v1
kind: Service
metadata:
  name: fgedu-app-service
spec:
  selector:
    app: fgedu-app
  ports:
  - port: 80
    targetPort: 8080
  type: LoadBalancer
  sessionAffinity: ClientIP
  sessionAffinityConfig:
    clientIP:
      timeoutSeconds: 10800

3.3 健康检查配置

配置详细的健康检查：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: fgedu-db
spec:
  replicas: 3
  selector:
    matchLabels:
      app: fgedu-db
  template:
    metadata:
      labels:
        app: fgedu-db
    spec:
      containers:
      - name: fgedu-db
        image: mysql:8.0
        ports:
        - containerPort: 3306
        readinessProbe:
          exec:
            command:
            - sh
            - -c
            - "mysqladmin ping -u root -p${MYSQL_ROOT_PASSWORD}"
          initialDelaySeconds: 30
          periodSeconds: 10
        livenessProbe:
          exec:
            command:
            - sh
            - -c
            - "mysqladmin ping -u root -p${MYSQL_ROOT_PASSWORD}"
          initialDelaySeconds: 60
          periodSeconds: 20
        startupProbe:
          exec:
            command:
            - sh
            - -c
            - "mysqladmin ping -u root -p${MYSQL_ROOT_PASSWORD}"
          initialDelaySeconds: 10
          periodSeconds: 5
          failureThreshold: 30
        env:
        - name: MYSQL_ROOT_PASSWORD
          valueFrom:
            secretKeyRef:
              name: fgedu-db-secret
              key: password

Part04-生产案例与实战讲解

4.1 大规模应用高可用部署

实战案例：部署高可用应用：

# 部署应用

kubectl apply -f deployment.yaml

deployment.apps/fgedu-app created

# 部署服务

kubectl apply -f service.yaml

service/fgedu-app-service created

# 查看Pod状态

kubectl get pods

NAME READY STATUS RESTARTS AGE

fgedu-app-1234567890-abcde 1/1 Running 0 1m

fgedu-app-1234567890-fghij 1/1 Running 0 1m

fgedu-app-1234567890-klmno 1/1 Running 0 1m

4.2 故障转移演练

实战案例：模拟故障转移：

# 查看服务IP

kubectl get service fgedu-app-service

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE

fgedu-app-service LoadBalancer 10.96.0.100 192.168.1.200 80:30080/TCP 5m

# 模拟Pod故障

kubectl delete pod fgedu-app-1234567890-abcde

pod “fgedu-app-1234567890-abcde” deleted

# 查看Pod状态

kubectl get pods

NAME READY STATUS RESTARTS AGE

fgedu-app-1234567890-fghij 1/1 Running 0 5m

fgedu-app-1234567890-klmno 1/1 Running 0 5m

fgedu-app-1234567890-pqrst 0/1 ContainerCreating 0 10s

4.3 容灾方案实施

实战案例：实施跨区域容灾：

# 部署Velero进行备份

velero install --provider aws --plugins velero/velero-plugin-for-aws:v1.5.0 --bucket fgedu-backup --secret-file ./credentials-velero --backup-location-config region=us-east-1 --snapshot-location-config region=us-east-1

Velero is installed!

# 创建备份

velero backup create fgedu-app-backup --include-namespaces default

Backup request “fgedu-app-backup” submitted successfully.

Run `velero backup describe fgedu-app-backup` or `velero backup logs fgedu-app-backup` for more details.

from PG视频:www.itpux.com

Part05-风哥经验总结与分享

5.1 高可用与故障转移最佳实践

多副本部署：根据应用重要性和负载设置合理的副本数，确保服务的连续性。
健康检查配置：合理配置就绪探针、存活探针和启动探针，确保故障能够及时被检测。
滚动更新策略：使用滚动更新策略，确保更新过程中服务不中断。
负载均衡：选择合适的负载均衡算法，确保流量均匀分布。
容灾方案：实施本地和异地容灾，确保在重大故障时能够快速恢复。

5.2 常见问题与解决方案

故障检测延迟：优化健康检查参数，减少故障检测时间。
会话丢失：使用会话保持机制，确保故障转移后会话不丢失。
数据不一致：使用状态管理方案，确保数据的一致性。
容灾切换时间长：优化容灾方案，减少切换时间。
资源浪费：根据实际负载调整副本数，避免资源浪费。

5.3 未来发展趋势

自动化运维：使用自动化工具实现故障检测和转移的自动化。
智能故障预测：使用AI技术预测故障，提前采取措施。
多云容灾：实现跨云平台的容灾方案，提高可靠性。
边缘计算集成：将高可用架构延伸到边缘节点。
服务网格：使用服务网格技术实现更细粒度的流量管理和故障转移。

更多视频教程www.fgedudb.net.cn

风哥提示：高可用架构是保障业务连续性的关键，需要根据业务需求和技术条件制定合适的方案。