Docker教程FG016-Docker监控与日志管理实战

本教程风哥教程参考Docker官方文档，详细介绍Docker容器的监控与日志管理方法，包括容器监控、资源使用统计、日志收集与分析等。内容包括基础概念、监控工具、日志配置、最佳实践以及常见问题解决方案，帮助读者掌握Docker监控与日志管理的核心技术。

本文档适合Docker容器运维工程师、开发人员以及DevOps工程师阅读，通过学习本教程，您将能够实时监控容器状态，收集和分析容器日志，确保容器化应用的稳定运行。

目录大纲

Part01-基础概念与理论知识
1.1 Docker监控概述
1.2 Docker日志管理概述
Part02-生产环境规划与建议
2.1 监控策略规划
2.2 日志管理策略
2.3 告警机制设计
Part03-生产环境项目实施方案
3.1 容器监控配置
3.2 日志收集与分析配置
3.3 告警配置
Part04-生产案例与实战讲解
4.1 容器监控实战
4.2 日志管理实战
4.3 告警配置实战
Part05-风哥经验总结与分享
5.1 最佳实践
5.2 常见问题与解决方案
5.3 性能优化建议

Part01-基础概念与理论知识

1.1 Docker监控概述

Docker监控是指对Docker容器和主机的运行状态进行实时监控，包括以下方面：

容器资源使用情况（CPU、内存、网络、磁盘）
容器健康状态
容器运行状态
主机资源使用情况
服务可用性

监控是容器化应用运维的重要组成部分，通过监控可以及时发现和处理问题，确保应用的稳定运行。

1.2 Docker日志管理概述

Docker日志管理是指对容器生成的日志进行收集、存储、分析和管理，包括以下方面：

容器标准输出和标准错误日志
应用程序日志
系统日志
日志收集和聚合
日志分析和搜索

日志管理是容器化应用运维的重要组成部分，通过日志可以了解应用的运行状态，排查问题。

Part02-生产环境规划与建议

2.1 监控策略规划

在生产环境中，建议以下监控策略规划：

监控对象：容器、主机、网络、存储
监控指标：CPU、内存、网络、磁盘、应用响应时间
监控工具：Docker自带工具、第三方监控工具
监控频率：根据业务重要性设置不同的监控频率
监控告警：设置合理的告警阈值和告警方式

更多视频教程www.fgedu.net.cn

2.2 日志管理策略

日志管理策略建议：

日志收集：使用集中式日志收集系统
日志存储：设置合理的日志存储策略和保留期限
日志分析：使用日志分析工具，提取有价值的信息
日志安全：保护敏感日志信息
日志可视化：使用日志可视化工具，直观展示日志信息

2.3 告警机制设计

告警机制设计建议：

设置合理的告警阈值
使用多种告警方式（邮件、短信、微信等）
实施告警分级，区分不同级别的告警
建立告警处理流程，确保告警及时处理
定期检查告警配置，确保告警有效性

学习交流加群风哥微信: itpux-com

Part03-生产环境项目实施方案

3.1 容器监控配置

容器监控配置的基本命令：

# 使用docker stats命令监控容器
$ docker stats

# 使用docker events命令监控容器事件
$ docker events

# 使用cAdvisor监控容器
$ docker run \
  --volume=/:/rootfs:ro \
  --volume=/var/run:/var/run:ro \
  --volume=/sys:/sys:ro \
  --volume=/var/lib/docker/:/var/lib/docker:ro \
  --publish=8080:8080 \
  --detach=true \
  --name=cadvisor \
  gcr.io/cadvisor/cadvisor:latest

# 使用Prometheus和Grafana监控容器
$ docker-compose up -d

3.2 日志收集与分析配置

日志收集与分析配置的基本命令：

# 查看容器日志
$ docker logs my-container

# 实时查看容器日志
$ docker logs -f my-container

# 配置容器日志驱动
$ docker run --name my-container --log-driver json-file --log-opt max-size=10m --log-opt max-file=3 -d nginx:1.24

# 使用ELK Stack收集和分析日志
$ docker-compose up -d

3.3 告警配置

告警配置的基本命令：

# 配置Prometheus告警规则
$ cat > prometheus-rules.yml << 'EOF'
groups:
- name: docker-alerts
  rules:
  - alert: HighCPUUsage
    expr: (sum(rate(container_cpu_usage_seconds_total{name!=""}[5m])) by (name) / sum(container_spec_cpu_quota{name!=""} / container_spec_cpu_period{name!=""}) by (name)) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High CPU usage for container {{ $labels.name }}"
      description: "Container {{ $labels.name }} has been using more than 80% CPU for 5 minutes."
  - alert: HighMemoryUsage
    expr: (sum(container_memory_usage_bytes{name!=""}) by (name) / sum(container_spec_memory_limit_bytes{name!=""}) by (name)) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High memory usage for container {{ $labels.name }}"
      description: "Container {{ $labels.name }} has been using more than 80% memory for 5 minutes."
EOF

# 配置Grafana告警
$ docker run --name grafana \
  -p 3000:3000 \
  -v grafana-storage:/var/lib/grafana \
  -d \
  grafana/grafana:latest

Part04-生产案例与实战讲解

4.1 容器监控实战

案例：使用cAdvisor监控容器

# 启动cAdvisor容器
$ docker run \
  --volume=/:/rootfs:ro \
  --volume=/var/run:/var/run:ro \
  --volume=/sys:/sys:ro \
  --volume=/var/lib/docker/:/var/lib/docker:ro \
  --publish=8080:8080 \
  --detach=true \
  --name=cadvisor \
  gcr.io/cadvisor/cadvisor:latest

1234567890abcdef...

# 查看cAdvisor界面
$ curl http://localhost:8080


    
        
            
                cAdvisor
                
                    
                        
                            cAdvisor
                        
                        
                            
                                Overview
                                Containers
                                Docker
                                API

风哥提示：cAdvisor是Google开源的容器监控工具，可以实时监控容器的资源使用情况。

4.2 日志管理实战

案例：使用ELK Stack收集和分析容器日志

# 创建docker-compose.yml
$ cat > docker-compose.yml << 'EOF'
version: '3.8'

services:
  elasticsearch:
    image: elasticsearch:7.17.0
    environment:
      - discovery.type=single-node
      - ES_JAVA_OPTS=-Xms512m -Xmx512m
    ports:
      - "9200:9200"
    volumes:
      - elasticsearch-data:/usr/share/elasticsearch/data
  
  logstash:
    image: logstash:7.17.0
    volumes:
      - ./logstash.conf:/usr/share/logstash/pipeline/logstash.conf
    ports:
      - "5044:5044"
    depends_on:
      - elasticsearch
  
  kibana:
    image: kibana:7.17.0
    ports:
      - "5601:5601"
    depends_on:
      - elasticsearch
  
  filebeat:
    image: elastic/filebeat:7.17.0
    volumes:
      - /var/lib/docker/containers:/var/lib/docker/containers:ro
      - ./filebeat.yml:/usr/share/filebeat/filebeat.yml:ro
    depends_on:
      - logstash

volumes:
  elasticsearch-data:
EOF

# 创建logstash.conf
$ cat > logstash.conf << 'EOF'
input {
  beats {
    port => 5044
  }
}

output {
  elasticsearch {
    hosts => ["elasticsearch:9200"]
    index => "docker-logs-%{+YYYY.MM.dd}"
  }
}
EOF

# 创建filebeat.yml
$ cat > filebeat.yml << 'EOF'
filebeat.inputs:
- type: container
  paths:
    - /var/lib/docker/containers/*/*.log
  processors:
    - add_docker_metadata: ~

output.logstash:
  hosts: ["logstash:5044"]
EOF

# 启动ELK Stack
$ docker-compose up -d

Creating network "elk_default" with the default driver
Creating volume "elk_elasticsearch-data" with default driver
Creating elk_elasticsearch_1 ... done
Creating elk_logstash_1 ... done
Creating elk_kibana_1 ... done
Creating elk_filebeat_1 ... done

学习交流加群风哥QQ113257174

4.3 告警配置实战

案例：配置Prometheus和Grafana告警

# 创建docker-compose.yml
$ cat > docker-compose.yml << 'EOF'
version: '3.8'

services:
  prometheus:
    image: prom/prometheus:v2.33.0
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
      - ./prometheus-rules.yml:/etc/prometheus/rules.yml
    ports:
      - "9090:9090"
  
  node-exporter:
    image: prom/node-exporter:v1.3.1
    ports:
      - "9100:9100"
  
  cadvisor:
    image: gcr.io/cadvisor/cadvisor:latest
    volumes:
      - /:/rootfs:ro
      - /var/run:/var/run:ro
      - /sys:/sys:ro
      - /var/lib/docker/:/var/lib/docker:ro
    ports:
      - "8080:8080"
  
  grafana:
    image: grafana/grafana:8.3.3
    ports:
      - "3000:3000"
    volumes:
      - grafana-storage:/var/lib/grafana
    depends_on:
      - prometheus

volumes:
  grafana-storage:
EOF

# 创建prometheus.yml
$ cat > prometheus.yml << 'EOF'
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']
  
  - job_name: 'node-exporter'
    static_configs:
      - targets: ['node-exporter:9100']
  
  - job_name: 'cadvisor'
    static_configs:
      - targets: ['cadvisor:8080']
EOF

# 创建prometheus-rules.yml
$ cat > prometheus-rules.yml << 'EOF'
groups:
- name: docker-alerts
  rules:
  - alert: HighCPUUsage
    expr: (sum(rate(container_cpu_usage_seconds_total{name!=""}[5m])) by (name) / sum(container_spec_cpu_quota{name!=""} / container_spec_cpu_period{name!=""}) by (name)) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High CPU usage for container {{ $labels.name }}"
      description: "Container {{ $labels.name }} has been using more than 80% CPU for 5 minutes."
  - alert: HighMemoryUsage
    expr: (sum(container_memory_usage_bytes{name!=""}) by (name) / sum(container_spec_memory_limit_bytes{name!=""}) by (name)) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High memory usage for container {{ $labels.name }}"
      description: "Container {{ $labels.name }} has been using more than 80% memory for 5 minutes."
EOF

# 启动服务
$ docker-compose up -d

Creating network "monitoring_default" with the default driver
Creating volume "monitoring_grafana-storage" with default driver
Creating monitoring_node-exporter_1 ... done
Creating monitoring_cadvisor_1 ... done
Creating monitoring_prometheus_1 ... done
Creating monitoring_grafana_1 ... done

更多学习教程公众号风哥教程itpux_com

Part05-风哥经验总结与分享

5.1 最佳实践

使用多种监控工具，确保监控的全面性
设置合理的监控指标和告警阈值
使用集中式日志收集系统，便于日志管理和分析
配置日志轮转和清理策略，避免日志占用过多空间
实施告警分级，区分不同级别的告警
定期检查监控和日志配置，确保其有效性
使用监控和日志数据进行容量规划和性能优化
与CI/CD流程集成，实现自动化监控和告警

5.2 常见问题与解决方案

问题	解决方案
监控数据不准确	检查监控配置，确保监控指标正确
日志收集失败	检查日志收集配置，确保日志路径正确
告警误报	调整告警阈值，减少误报
监控系统性能问题	优化监控系统配置，减少资源占用
日志存储空间不足	配置日志轮转和清理策略，增加存储空间

5.3 性能优化建议

使用轻量级监控工具，减少资源占用
合理设置监控频率，避免过于频繁的监控
优化日志收集和存储，减少I/O开销
使用缓存机制，提高监控数据查询速度
实施监控数据聚合，减少数据传输量
使用分布式监控架构，提高监控系统的可扩展性
定期清理监控和日志数据，避免数据积累

from Docker视频:www.itpux.com

通过以上优化措施，可以显著提高Docker监控与日志管理的效率和质量，确保容器化应用的稳定运行。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html