大数据教程FG103-Hadoop用户行为日志分析实战

# 检查集群硬件配置
[root@fgedu.net.cn ~]# hadoop dfsadmin -report
Configured Capacity: 1099511627776 (1024.0 GB)
Present Capacity: 879609302016 (819.2 GB)
DFS Remaining: 703687441664 (655.4 GB)
DFS Used: 175921860352 (163.8 GB)
DFS Used%: 20.0%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0

2.2 存储方案设计

# 创建HDFS目录结构
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/logs/raw
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/logs/processed
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/logs/analysis
[root@fgedu.net.cn ~]# hdfs dfs -mkdir -p /user/fgedu/logs/archive

# 设置目录权限
[root@fgedu.net.cn ~]# hdfs dfs -chmod -R 755 /user/fgedu/logs

2.3 日志采集架构

推荐使用Flume + Kafka + HDFS的架构进行日志采集：Flume负责采集日志，Kafka作为消息队列缓冲，HDFS作为最终存储。这种架构可以保证日志采集的可靠性和高吞吐量。

Part03-生产环境项目实施方案

3.1 日志采集与预处理

# Flume配置示例
[root@fgedu.net.cn ~]# vi /bigdata/app/flume/conf/user_behavior.conf

agent.sources = tail
agent.sinks = kafka
agent.channels = memory

agent.sources.tail.type = exec
agent.sources.tail.command = tail -F /var/log/nginx/access.log
agent.sources.tail.channels = memory

agent.channels.memory.type = memory
agent.channels.memory.capacity = 10000
agent.channels.memory.transactionCapacity = 1000

agent.sinks.kafka.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafka.topic = user_behavior
agent.sinks.kafka.brokerList = fgedu.net.cn:9092
agent.sinks.kafka.batchSize = 1000
agent.sinks.kafka.channel = memory

3.2 日志分析与挖掘

# Hive SQL分析用户行为
hive> CREATE EXTERNAL TABLE user_behavior_log (
ip STRING,
user_id STRING,
timestamp STRING,
url STRING,
method STRING,
status INT,
referer STRING,
user_agent STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
LOCATION ‘/user/fgedu/logs/processed’;

# 分析用户访问量
hive> SELECT
DATE(FROM_UNIXTIME(CAST(SUBSTR(timestamp, 1, 10) AS BIGINT))) AS date,
COUNT(*) AS visit_count,
COUNT(DISTINCT user_id) AS unique_users
FROM user_behavior_log
GROUP BY DATE(FROM_UNIXTIME(CAST(SUBSTR(timestamp, 1, 10) AS BIGINT)))
ORDER BY date;

3.3 分析结果可视化

# 使用Hue查看分析结果
[root@fgedu.net.cn ~]# /bigdata/app/hue/build/env/bin/supervisor

# 访问Hue Web界面
# http://fgedu.net.cn:8888

Part04-生产案例与实战讲解

4.1 电商用户行为分析

案例背景

某电商平台需要分析用户的购买行为，了解用户的购买习惯和偏好，以便优化产品推荐和营销策略。

分析步骤

采集用户行为日志（浏览、点击、加入购物车、购买等）
使用Hive进行数据清洗和转换
分析用户购买路径和转化率
构建用户购买行为模型

分析结果

通过分析发现，用户在周一和周五的购买行为最为活跃，晚上8-10点是购买高峰时段。from bigdata视频:www.itpux.com

4.2 网站流量分析

# 网站流量分析脚本
#!/bin/bash
# website_analytics.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: `http://www.fgedu.net.cn`

# 导出环境变量
export HADOOP_HOME=/bigdata/app/hadoop
export HIVE_HOME=/bigdata/app/hive
export PATH=$HADOOP_HOME/bin:$HIVE_HOME/bin:$PATH

# 执行流量分析
hive -f /bigdata/app/scripts/website_analytics.sql

# 检查执行结果
if [ $? -eq 0 ]; then
echo “网站流量分析成功”
else
echo “网站流量分析失败”
exit 1
fi

4.3 用户画像构建

# 构建用户画像
hive> CREATE TABLE user_profile (
user_id STRING,
age_group STRING,
gender STRING,
location STRING,
interests ARRAY,
purchase_frequency INT,
average_order_value DOUBLE
);

# 插入用户画像数据
hive> INSERT INTO TABLE user_profile
SELECT
user_id,
CASE
WHEN age < 18 THEN '青少年'
WHEN age BETWEEN 18 AND 35 THEN ‘青年’
WHEN age BETWEEN 36 AND 50 THEN ‘中年’
ELSE ‘老年’
END AS age_group,
gender,
location,
collect_set(interest) AS interests,
COUNT(*) AS purchase_frequency,
AVG(order_amount) AS average_order_value
FROM user_behavior
GROUP BY user_id, age, gender, location;

Part05-风哥经验总结与分享

5.1 日志分析最佳实践

规范日志格式：统一日志格式，便于后续分析
实时采集：确保日志及时采集和处理
数据清洗：去除无效数据，保证数据质量
维度分析：从多个维度分析用户行为
持续优化：根据分析结果持续优化产品和服务

5.2 性能优化技巧

# 优化Hive查询性能
hive> set hive.exec.parallel=true;
hive> set hive.exec.parallel.thread.number=8;
hive> set hive.vectorized.execution.enabled=true;
hive> set hive.vectorized.execution.reduce.enabled=true;
hive> set hive.auto.convert.join=true;
hive> set hive.optimize.skewjoin=true;

5.3 常见问题与解决方案

问题	原因	解决方案
日志丢失	采集过程中网络故障	使用Kafka等消息队列进行缓冲
分析速度慢	数据量大，资源配置不足	增加集群资源，优化查询语句
数据质量差	日志格式不规范，存在脏数据	加强数据清洗，规范日志格式
存储成本高	日志数据量大，存储时间长	使用数据压缩，设置合理的存储策略

通过用户行为日志分析，可以深入了解用户需求和行为模式，为业务决策提供数据支持，提升产品竞争力。学习交流加群风哥QQ113257174

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

大数据教程FG103-Hadoop用户行为日志分析实战

目录大纲

Part01-基础概念与理论知识

1.1 用户行为日志概述

1.2 日志采集与存储

1.3 日志分析方法与技术

Part02-生产环境规划与建议

2.1 硬件资源规划