Docker教程FG041-Docker容器监控与日志管理实战

本教程风哥教程参考Docker官方文档，详细介绍Docker容器监控与日志管理的方法和技巧，包括容器监控、日志收集、分析和告警等。内容包括基础概念、监控策略、配置方法、最佳实践以及常见问题解决方案，帮助读者掌握Docker容器监控与日志管理的核心技术。

本文档适合Docker容器运维工程师、开发人员以及DevOps工程师阅读，通过学习本教程，您将能够高效监控和管理Docker容器，及时发现和解决问题，提高应用的可靠性和可用性。

目录大纲

Part01-基础概念与理论知识
1.1 容器监控概述
1.2 日志管理概述
Part02-生产环境规划与建议
2.1 监控策略
2.2 日志管理策略
2.3 工具选择
Part03-生产环境项目实施方案
3.1 容器监控配置
3.2 日志管理配置
3.3 告警配置
Part04-生产案例与实战讲解
4.1 容器监控实战
4.2 日志管理实战
4.3 告警配置实战
Part05-风哥经验总结与分享
5.1 最佳实践
5.2 常见问题与解决方案
5.3 监控与日志管理建议

Part01-基础概念与理论知识

1.1 容器监控概述

容器监控是指对Docker容器的运行状态、资源使用情况和性能指标进行监控和分析。容器监控的核心指标包括：

CPU使用率：容器使用的CPU资源占总CPU资源的比例。
内存使用率：容器使用的内存资源占总内存资源的比例。
磁盘I/O：容器的磁盘读写速度和使用率。
网络吞吐量：容器的网络数据传输速度和使用率。
容器状态：容器的运行状态，如运行、停止、暂停等。
应用性能：容器中应用的响应时间、吞吐量等。

1.2 日志管理概述

日志管理是指对Docker容器产生的日志进行收集、存储、分析和查询。日志管理的核心功能包括：

日志收集：从容器中收集日志数据。
日志存储：将收集到的日志数据存储到安全可靠的位置。
日志分析：对日志数据进行分析，提取有价值的信息。
日志查询：快速查询和检索日志数据。
日志告警：当日志中出现异常时，及时发送告警。

Part02-生产环境规划与建议

2.1 监控策略

在生产环境中，建议以下监控策略：

实时监控：实时监控容器的运行状态和资源使用情况。
历史数据分析：分析历史数据，识别趋势和异常。
多维度监控：从多个维度监控容器，如资源使用、应用性能、业务指标等。
告警机制：设置合理的告警阈值，及时发现和解决问题。
可视化监控：使用可视化工具展示监控数据，便于理解和分析。

更多视频教程www.fgedu.net.cn

2.2 日志管理策略

日志管理策略建议：

集中式日志收集：将所有容器的日志收集到一个中央位置。
结构化日志：使用结构化日志格式，便于分析和查询。
日志轮转：定期轮转日志，避免日志文件过大。
日志保留策略：根据业务需求设置合理的日志保留时间。
日志安全：确保日志数据的安全性，防止未授权访问。

2.3 工具选择

监控与日志管理工具选择建议：

容器监控：Docker Stats、cAdvisor、Prometheus、Grafana等。
日志收集：Docker Logs、Fluentd、Logstash、Filebeat等。
日志存储：Elasticsearch、MongoDB、InfluxDB等。
日志分析：Kibana、Grafana等。
告警工具：Prometheus Alertmanager、ELK Alert等。

学习交流加群风哥微信: itpux-com

Part03-生产环境项目实施方案

3.1 容器监控配置

容器监控配置的基本命令：

# 使用Docker Stats监控容器
$ docker stats

# 使用cAdvisor监控容器
$ docker run \
    --name cadvisor \
    -v /:/rootfs:ro \
    -v /var/run:/var/run:ro \
    -v /sys:/sys:ro \
    -v /var/lib/docker/:/var/lib/docker:ro \
    -p 8080:8080 \
    -d \
    gcr.io/cadvisor/cadvisor:latest

# 使用Prometheus监控容器
$ cat > prometheus.yml << 'EOF'
global:
  scrape_interval: 15s

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['localhost:9090']
  - job_name: 'cadvisor'
    static_configs:
    - targets: ['cadvisor:8080']
EOF

$ docker run \
    --name prometheus \
    -v $(pwd)/prometheus.yml:/etc/prometheus/prometheus.yml \
    -p 9090:9090 \
    -d \
    prom/prometheus:latest

# 使用Grafana展示监控数据
$ docker run \
    --name grafana \
    -p 3000:3000 \
    -d \
    grafana/grafana:latest

3.2 日志管理配置

日志管理配置的基本命令：

# 使用Docker Logs查看容器日志
$ docker logs container_name

# 使用Docker Logs查看实时日志
$ docker logs -f container_name

# 使用ELK Stack收集和分析日志
$ cat > docker-compose.yml << 'EOF'
version: '3'
services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.0
    environment:
      - discovery.type=single-node
      - ES_JAVA_OPTS=-Xms1g -Xmx1g
    ports:
      - "9200:9200"
    volumes:
      - es_data:/usr/share/elasticsearch/data
  logstash:
    image: docker.elastic.co/logstash/logstash:7.17.0
    volumes:
      - ./logstash.conf:/usr/share/logstash/pipeline/logstash.conf
    ports:
      - "5044:5044"
  kibana:
    image: docker.elastic.co/kibana/kibana:7.17.0
    ports:
      - "5601:5601"
  filebeat:
    image: docker.elastic.co/beats/filebeat:7.17.0
    volumes:
      - /var/lib/docker/containers:/var/lib/docker/containers:ro
      - ./filebeat.yml:/usr/share/filebeat/filebeat.yml
volumes:
  es_data:
EOF

$ cat > logstash.conf << 'EOF'
input {
  beats {
    port => 5044
  }
}

output {
  elasticsearch {
    hosts => ["elasticsearch:9200"]
    index => "filebeat-%{+YYYY.MM.dd}"
  }
}
EOF

$ cat > filebeat.yml << 'EOF'
filebeat.inputs:
- type: container
  paths:
    - /var/lib/docker/containers/*/*.log

output.logstash:
  hosts: ["logstash:5044"]
EOF

$ docker-compose up -d

3.3 告警配置

告警配置的基本命令：

# 使用Prometheus Alertmanager配置告警
$ cat > alertmanager.yml << 'EOF'
global:
  resolve_timeout: 5m

route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  receiver: 'email'

receivers:
- name: 'email'
  email_configs:
  - to: 'alerts@example.com'
    from: 'prometheus@example.com'
    smarthost: 'smtp.example.com:587'
    auth_username: 'prometheus'
    auth_password: 'password'
    require_tls: true

inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']
EOF

$ docker run \
    --name alertmanager \
    -v $(pwd)/alertmanager.yml:/etc/alertmanager/alertmanager.yml \
    -p 9093:9093 \
    -d \
    prom/alertmanager:latest

# 配置Prometheus告警规则
$ cat > alert.rules.yml << 'EOF'
groups:
- name: container_alerts
  rules:
  - alert: ContainerHighCPU
    expr: (sum by (container_name) (rate(container_cpu_usage_seconds_total{name!=""}[5m])) / sum by (container_name) (container_spec_cpu_quota{name!=""} / container_spec_cpu_period{name!=""})) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Container high CPU usage"
      description: "Container {{ $labels.container_name }} CPU usage is above 80% for 5 minutes"
  - alert: ContainerHighMemory
    expr: (sum by (container_name) (container_memory_usage_bytes{name!=""})) / (sum by (container_name) (container_spec_memory_limit_bytes{name!=""})) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Container high memory usage"
      description: "Container {{ $labels.container_name }} memory usage is above 80% for 5 minutes"
EOF

$ docker run \
    --name prometheus \
    -v $(pwd)/prometheus.yml:/etc/prometheus/prometheus.yml \
    -v $(pwd)/alert.rules.yml:/etc/prometheus/alert.rules.yml \
    -p 9090:9090 \
    -d \
    prom/prometheus:latest

Part04-生产案例与实战讲解

4.1 容器监控实战

案例：使用Prometheus和Grafana监控Docker容器

# 创建监控配置
$ mkdir -p monitoring
$ cd monitoring
$ cat > docker-compose.yml << 'EOF'
version: '3'
services:
  cadvisor:
    image: gcr.io/cadvisor/cadvisor:latest
    volumes:
      - /:/rootfs:ro
      - /var/run:/var/run:ro
      - /sys:/sys:ro
      - /var/lib/docker/:/var/lib/docker:ro
    ports:
      - "8080:8080"
    restart: always
  prometheus:
    image: prom/prometheus:latest
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
      - ./alert.rules.yml:/etc/prometheus/alert.rules.yml
    ports:
      - "9090:9090"
    restart: always
  grafana:
    image: grafana/grafana:latest
    ports:
      - "3000:3000"
    restart: always
EOF

$ cat > prometheus.yml << 'EOF'
global:
  scrape_interval: 15s

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - alertmanager:9093

rule_files:
  - "alert.rules.yml"

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['localhost:9090']
  - job_name: 'cadvisor'
    static_configs:
    - targets: ['cadvisor:8080']
EOF

$ cat > alert.rules.yml << 'EOF'
groups:
- name: container_alerts
  rules:
  - alert: ContainerHighCPU
    expr: (sum by (container_name) (rate(container_cpu_usage_seconds_total{name!=""}[5m])) / sum by (container_name) (container_spec_cpu_quota{name!=""} / container_spec_cpu_period{name!=""})) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Container high CPU usage"
      description: "Container {{ $labels.container_name }} CPU usage is above 80% for 5 minutes"
  - alert: ContainerHighMemory
    expr: (sum by (container_name) (container_memory_usage_bytes{name!=""})) / (sum by (container_name) (container_spec_memory_limit_bytes{name!=""})) * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Container high memory usage"
      description: "Container {{ $labels.container_name }} memory usage is above 80% for 5 minutes"
EOF

# 启动监控服务
$ docker-compose up -d

Creating network "monitoring_default" with the default driver
Creating monitoring_cadvisor_1    ... done
Creating monitoring_prometheus_1  ... done
Creating monitoring_grafana_1     ... done

# 访问Grafana
# 打开浏览器访问 http://localhost:3000
# 登录Grafana（默认用户名/密码：admin/admin）
# 添加Prometheus数据源（URL：http://prometheus:9090）
# 导入Docker容器监控仪表板（ID：193）

风哥提示：使用Prometheus和Grafana可以实现容器的实时监控和数据可视化，便于及时发现和解决问题。

4.2 日志管理实战

案例：使用ELK Stack收集和分析容器日志

# 创建日志管理配置
$ mkdir -p logging
$ cd logging
$ cat > docker-compose.yml << 'EOF'
version: '3'
services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.0
    environment:
      - discovery.type=single-node
      - ES_JAVA_OPTS=-Xms1g -Xmx1g
    ports:
      - "9200:9200"
    volumes:
      - es_data:/usr/share/elasticsearch/data
    restart: always
  logstash:
    image: docker.elastic.co/logstash/logstash:7.17.0
    volumes:
      - ./logstash.conf:/usr/share/logstash/pipeline/logstash.conf
    ports:
      - "5044:5044"
    restart: always
  kibana:
    image: docker.elastic.co/kibana/kibana:7.17.0
    ports:
      - "5601:5601"
    restart: always
  filebeat:
    image: docker.elastic.co/beats/filebeat:7.17.0
    volumes:
      - /var/lib/docker/containers:/var/lib/docker/containers:ro
      - ./filebeat.yml:/usr/share/filebeat/filebeat.yml
    restart: always
volumes:
  es_data:
EOF

$ cat > logstash.conf << 'EOF'
input {
  beats {
    port => 5044
  }
}

filter {
  if [docker][container][name] {
    mutate {
      add_field => { "container_name" => "%{[docker][container][name]}" }
    }
  }
}

output {
  elasticsearch {
    hosts => ["elasticsearch:9200"]
    index => "filebeat-%{+YYYY.MM.dd}"
  }
}
EOF

$ cat > filebeat.yml << 'EOF'
filebeat.inputs:
- type: container
  paths:
    - /var/lib/docker/containers/*/*.log
  processors:
    - add_docker_metadata: ~

output.logstash:
  hosts: ["logstash:5044"]
EOF

# 启动日志管理服务
$ docker-compose up -d

Creating network "logging_default" with the default driver
Creating logging_elasticsearch_1 ... done
Creating logging_logstash_1      ... done
Creating logging_kibana_1        ... done
Creating logging_filebeat_1      ... done

# 访问Kibana
# 打开浏览器访问 http://localhost:5601
# 配置索引模式（Pattern：filebeat-*）
# 在Discover页面查看和分析容器日志

学习交流加群风哥QQ113257174

4.3 告警配置实战

案例：使用Prometheus Alertmanager配置容器告警

# 创建告警配置
$ mkdir -p alerting
$ cd alerting
$ cat > docker-compose.yml << 'EOF'
version: '3'
services:
  alertmanager:
    image: prom/prometheus:latest
    volumes:
      - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml
    ports:
      - "9093:9093"
    restart: always
EOF

$ cat > alertmanager.yml << 'EOF'
global:
  resolve_timeout: 5m

route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  receiver: 'email'

receivers:
- name: 'email'
  email_configs:
  - to: 'alerts@example.com'
    from: 'prometheus@example.com'
    smarthost: 'smtp.example.com:587'
    auth_username: 'prometheus'
    auth_password: 'password'
    require_tls: true

inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']
EOF

# 启动告警服务
$ docker-compose up -d

Creating network "alerting_default" with the default driver
Creating alerting_alertmanager_1 ... done

# 配置Prometheus与Alertmanager集成
$ cat > prometheus.yml << 'EOF'
global:
  scrape_interval: 15s

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - alertmanager:9093

rule_files:
  - "alert.rules.yml"

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['localhost:9090']
  - job_name: 'cadvisor'
    static_configs:
    - targets: ['cadvisor:8080']
EOF

$ docker run \
    --name prometheus \
    --network alerting_default \
    -v $(pwd)/prometheus.yml:/etc/prometheus/prometheus.yml \
    -v $(pwd)/alert.rules.yml:/etc/prometheus/alert.rules.yml \
    -p 9090:9090 \
    -d \
    prom/prometheus:latest

更多学习教程公众号风哥教程itpux_com

Part05-风哥经验总结与分享

5.1 最佳实践

使用Docker Stats进行简单的容器监控，适合快速查看容器的资源使用情况。
使用cAdvisor收集容器的详细监控数据，提供更全面的容器性能指标。
使用Prometheus和Grafana实现容器的实时监控和数据可视化，便于及时发现和解决问题。
使用ELK Stack收集和分析容器日志，提供集中式的日志管理解决方案。
设置合理的告警阈值，及时发现和解决容器的异常情况。
定期分析监控数据和日志，识别趋势和异常，优化容器配置。
建立监控和日志管理的最佳实践文档，规范操作流程。
持续学习监控和日志管理的新技术和方法，提高团队的技能水平。
定期评估和优化监控和日志管理方案，提高效率和可靠性。
与团队成员分享监控和日志管理的最佳实践，共同提高容器管理水平。

5.2 常见问题与解决方案

问题	解决方案
监控数据丢失	检查监控服务的运行状态，确保数据收集正常
日志收集失败	检查日志收集服务的配置和运行状态，确保日志能够正确收集
告警误报	调整告警阈值，减少误报
监控系统性能问题	优化监控系统的配置，减少资源消耗
日志存储不足	设置合理的日志保留策略，定期清理过期日志

5.3 监控与日志管理建议

根据容器的重要性和业务需求，选择合适的监控和日志管理方案。
建立监控和日志管理的标准流程，规范操作。
使用自动化工具管理监控和日志系统，提高管理效率。
定期对监控和日志系统进行维护和优化。
建立监控和日志管理的知识库，积累经验。
持续关注监控和日志管理的新技术和趋势。
与团队成员分享监控和日志管理的最佳实践。
定期进行监控和日志管理的演练，提高应急处理能力。

from Docker视频:www.itpux.com

通过以上监控与日志管理实践，可以高效监控和管理Docker容器，及时发现和解决问题，提高应用的可靠性和可用性，确保容器环境的稳定运行。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html