大数据教程FG102-Hadoop大数据量清洗ETL实战

# 检查集群硬件配置
[root@fgedu.net.cn ~]# hadoop dfsadmin -report
Configured Capacity: 1099511627776 (1024.0 GB)
Present Capacity: 879609302016 (819.2 GB)
DFS Remaining: 703687441664 (655.4 GB)
DFS Used: 175921860352 (163.8 GB)
DFS Used%: 20.0%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0

2.2 存储方案设计

# 创建HDFS目录结构
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/etl/input
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/etl/output
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/etl/temp
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/etl/logs

# 设置目录权限
[root@fgedu.net.cn ~]# hdfs dfs -chmod -R 755 /user/fgedu/etl

2.3 ETL任务调度策略

使用Oozie或Airflow等工具进行ETL任务调度，可以实现任务的自动执行、依赖管理和失败重试等功能。风哥提示：合理的调度策略可以提高ETL任务的可靠性和效率。

Part03-生产环境项目实施方案

3.1 数据抽取方案

# 使用Sqoop从关系型数据库抽取数据
[root@fgedu.net.cn ~]# sqoop import
–connect jdbc:mysql://fgedu.net.cn:3306/fgedudb
–username fgedu
–password fgedu123
–table user_behavior
–target-dir /user/fgedu/etl/input/user_behavior
–split-by id
–num-mappers 10
–fields-terminated-by ‘\t’

3.2 数据清洗与转换

# Hive SQL进行数据清洗示例
hive> CREATE EXTERNAL TABLE user_behavior_raw (
id BIGINT,
user_id STRING,
item_id STRING,
behavior STRING,
timestamp BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
LOCATION ‘/user/fgedu/etl/input/user_behavior’;

hive> CREATE TABLE user_behavior_clean (
id BIGINT,
user_id STRING,
item_id STRING,
behavior STRING,
timestamp BIGINT,
dt STRING
)
PARTITIONED BY (dt STRING);

hive> INSERT OVERWRITE TABLE user_behavior_clean PARTITION (dt)
SELECT
id,
user_id,
item_id,
behavior,
timestamp,
FROM_UNIXTIME(timestamp, ‘yyyy-MM-dd’) AS dt
FROM user_behavior_raw
WHERE user_id IS NOT NULL
AND item_id IS NOT NULL
AND behavior IS NOT NULL
AND timestamp > 0;

3.3 数据加载策略

# 使用Hive动态分区加载数据
hive> set hive.exec.dynamic.partition=true;
hive> set hive.exec.dynamic.partition.mode=nonstrict;

# 加载数据到数据仓库
hive> INSERT OVERWRITE TABLE dw.user_behavior_di PARTITION (dt)
SELECT
user_id,
item_id,
behavior,
COUNT(*) AS behavior_count,
dt
FROM user_behavior_clean
GROUP BY user_id, item_id, behavior, dt;

Part04-生产案例与实战讲解

4.1 电商平台用户行为数据ETL

案例背景

某电商平台每天产生约50GB的用户行为数据，需要进行清洗、转换和加载到数据仓库，用于后续的数据分析和推荐系统。

ETL流程

使用Flume采集用户行为日志到HDFS
使用Hive进行数据清洗和转换
使用Spark进行复杂的数据分析
将处理结果加载到数据仓库

优化措施

使用Snappy压缩存储中间结果
增加Map和Reduce任务的内存配置
使用动态分区减少数据扫描范围
合理设置并行度提高处理速度

执行结果

ETL任务执行时间从原来的6小时减少到2小时，数据处理效率提升66%。from bigdata视频:www.itpux.com

4.2 金融交易数据清洗

# 金融交易数据清洗脚本
#!/bin/bash
# financial_etl.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

# 导出环境变量
export HADOOP_HOME=/bigdata/app/hadoop
export HIVE_HOME=/bigdata/app/hive
export PATH=$HADOOP_HOME/bin:$HIVE_HOME/bin:$PATH

# 执行数据清洗
hive -f /bigdata/app/scripts/financial_clean.sql

# 检查执行结果
if [ $? -eq 0 ]; then
echo “金融交易数据清洗成功”
else
echo “金融交易数据清洗失败”
exit 1
fi

4.3 日志数据处理实战

# 使用Flume采集日志数据
[root@fgedu.net.cn ~]# vi /bigdata/app/flume/conf/log_agent.conf

agent.sources = tail
agent.sinks = hdfs
agent.channels = memory

agent.sources.tail.type = exec
agent.sources.tail.command = tail -F /var/log/nginx/access.log
agent.sources.tail.channels = memory

agent.channels.memory.type = memory
agent.channels.memory.capacity = 10000
agent.channels.memory.transactionCapacity = 1000

agent.sinks.hdfs.type = hdfs
agent.sinks.hdfs.hdfs.path = hdfs://fgedu.net.cn:9000/user/fgedu/etl/input/logs/%Y-%m-%d
agent.sinks.hdfs.hdfs.filePrefix = access_
agent.sinks.hdfs.hdfs.fileType = DataStream
agent.sinks.hdfs.hdfs.writeFormat = Text
agent.sinks.hdfs.hdfs.batchSize = 1000
agent.sinks.hdfs.hdfs.rollSize = 134217728
agent.sinks.hdfs.hdfs.rollInterval = 3600
agent.sinks.hdfs.hdfs.rollCount = 0
agent.sinks.hdfs.channel = memory

# 启动Flume agent
[root@fgedu.net.cn ~]# flume-ng agent -n agent -c /bigdata/app/flume/conf -f
/bigdata/app/flume/conf/log_agent.conf -Dflume.root.logger=INFO,console

Part05-风哥经验总结与分享

5.1 ETL最佳实践

数据质量优先：确保数据清洗的完整性和准确性
增量处理：采用增量ETL减少数据处理量
错误处理：建立完善的错误处理和日志机制
监控与告警：实时监控ETL任务执行状态
版本控制：对ETL脚本进行版本管理

5.2 性能优化技巧

# 性能优化配置示例
[root@fgedu.net.cn ~]# vi /bigdata/app/hive/conf/hive-site.xml

hive.exec.parallel
true hive.exec.parallel.thread.number
8 hive.vectorized.execution.enabled
true hive.vectorized.execution.reduce.enabled
true hive.auto.convert.join
true

5.3 常见问题与解决方案

问题	原因	解决方案
数据倾斜	某些Key出现频率过高	使用加盐、分区裁剪等方法
内存溢出	任务内存配置不足	增加内存配置，优化数据处理逻辑
任务执行缓慢	资源分配不合理	调整资源配置，优化任务并行度
数据丢失	网络故障或系统崩溃	使用检查点机制，实现故障恢复

通过合理的ETL流程设计和性能优化，可以高效处理大数据量的清洗任务，为数据仓库和数据分析提供高质量的数据基础。学习交流加群风哥QQ113257174

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

大数据教程FG102-Hadoop大数据量清洗ETL实战

目录大纲

Part01-基础概念与理论知识

1.1 ETL概念与流程

1.2 大数据量清洗挑战

1.3 Hadoop ETL工具介绍

Part02-生产环境规划与建议

2.1 硬件资源规划