大数据教程FG147-Hadoop集群实时数据处理

# Apache Kafka集成
# 1. 安装Kafka
[root@fgedu.net.cn ~]# wget https://downloads.apache.org/kafka/3.3.2/kafka_2.13-3.3.2.tgz
[root@fgedu.net.cn ~]# tar -zxvf kafka_2.13-3.3.2.tgz -C /bigdata/app/
[root@fgedu.net.cn ~]# mv /bigdata/app/kafka_2.13-3.3.2 /bigdata/app/kafka

# 2. 启动Zookeeper
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/zookeeper-server-start.sh -daemon
/bigdata/app/kafka/config/zookeeper.properties

# 3. 启动Kafka
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-server-start.sh -daemon
/bigdata/app/kafka/config/server.properties

# 4. 创建主题
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-topics.sh –create –topic test-topic –bootstrap-server
localhost:9092 –partitions 3 –replication-factor 1

# 5. 生产消息
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-console-producer.sh –topic test-topic
–bootstrap-server localhost:9092
>Hello Kafka
>Welcome to Hadoop

# 6. 消费消息
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-console-consumer.sh –topic test-topic
–bootstrap-server localhost:9092 –from-beginning

3.2 Apache Flink集成

# Apache Flink集成
# 1. 安装Flink
[root@fgedu.net.cn ~]# wget
https://downloads.apache.org/flink/flink-1.15.3/flink-1.15.3-bin-scala_2.12.tgz
[root@fgedu.net.cn ~]# tar -zxvf flink-1.15.3-bin-scala_2.12.tgz -C /bigdata/app/
[root@fgedu.net.cn ~]# mv /bigdata/app/flink-1.15.3 /bigdata/app/flink

# 2. 启动Flink
[root@fgedu.net.cn ~]# /bigdata/app/flink/bin/start-cluster.sh

# 3. 编写Flink应用
[root@fgedu.net.cn ~]# vi flink_example.py
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment, EnvironmentSettings

# 初始化执行环境
env = StreamExecutionEnvironment.get_execution_environment()
settings = EnvironmentSettings.new_instance().in_streaming_mode().build()
t_env = StreamTableEnvironment.create(env, settings)

# 从Kafka读取数据
t_env.execute_sql(“””
CREATE TABLE source_table (
user_id STRING,
item_id STRING,
behavior STRING,
ts TIMESTAMP(3),
WATERMARK FOR ts AS ts – INTERVAL ‘5’ SECOND
) WITH (
‘connector’ = ‘kafka’,
‘topic’ = ‘user-behaviors’,
‘properties.bootstrap.servers’ = ‘localhost:9092’,
‘properties.group.id’ = ‘flink-consumer’,
‘format’ = ‘json’,
‘scan.startup.mode’ = ‘latest-offset’
)
“””)

# 处理数据
t_env.execute_sql(“””
CREATE TABLE result_table (
window_end TIMESTAMP(3),
behavior STRING,
behavior_count BIGINT
) WITH (
‘connector’ = ‘kafka’,
‘topic’ = ‘behavior-stats’,
‘properties.bootstrap.servers’ = ‘localhost:9092’,
‘format’ = ‘json’,
‘sink.partitioner’ = ’round-robin’
)
“””)

# 执行SQL
t_env.execute_sql(“””
INSERT INTO result_table
SELECT
TUMBLE_END(ts, INTERVAL ‘1’ MINUTE) AS window_end,
behavior,
COUNT(*) AS behavior_count
FROM source_table
GROUP BY
TUMBLE(ts, INTERVAL ‘1’ MINUTE),
behavior
“””)

# 运行Flink应用
[root@fgedu.net.cn ~]# /bigdata/app/flink/bin/flink run -m localhost:8081 -py flink_example.py

3.3 Spark Streaming集成

# Spark Streaming集成
# 1. 编写Spark Streaming应用
[root@fgedu.net.cn ~]# vi spark_streaming_example.py
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, col, window
from pyspark.sql.types import StructType, StringType, TimestampType

# 初始化Spark会话
spark = SparkSession.builder.appName(“SparkStreamingExample”).getOrCreate()

# 定义schema
schema = StructType() \
.add(“user_id”, StringType()) \
.add(“item_id”, StringType()) \
.add(“behavior”, StringType()) \
.add(“ts”, TimestampType())

# 从Kafka读取数据
kafka_df = spark \
.readStream \
.format(“kafka”) \
.option(“kafka.bootstrap.servers”, “localhost:9092”) \
.option(“subscribe”, “user-behaviors”) \
.load()

# 处理数据
processed_df = kafka_df \
.selectExpr(“CAST(value AS STRING)”) \
.select(from_json(col(“value”), schema).alias(“data”)) \
.select(“data.*”)

# 窗口聚合
windowed_df = processed_df \
.groupBy(\
window(col(“ts”), “1 minute”), \
col(“behavior”) \
) \
.count()

# 输出结果
query = windowed_df \
.writeStream \
.outputMode(“complete”) \
.format(“console”) \
.start()

# 等待查询结束
query.awaitTermination()

# 运行Spark Streaming应用
[root@fgedu.net.cn ~]# spark-submit spark_streaming_example.py

Part04-生产案例与实战讲解

4.1 企业级实时数据处理实施

案例背景

某企业需要实施企业级实时数据处理，对用户行为数据进行实时分析，以快速响应业务需求。

实施步骤

实时数据处理规划：分析业务需求，确定实时数据处理的应用场景
技术选型：选择合适的实时数据处理技术，如Kafka、Flink等
环境部署：部署Kafka、Flink等组件
应用开发：开发实时数据处理应用
验证实施：验证实时数据处理实施的有效性

实施效果

通过企业级实时数据处理实施，企业实现了对用户行为数据的实时分析，提高了业务响应速度，为业务决策提供了实时数据支持。from bigdata视频:www.itpux.com

4.2 实时数据处理实战

# 实时数据处理实战
# 1. 部署Kafka
[root@fgedu.net.cn ~]# wget https://downloads.apache.org/kafka/3.3.2/kafka_2.13-3.3.2.tgz
[root@fgedu.net.cn ~]# tar -zxvf kafka_2.13-3.3.2.tgz -C /bigdata/app/
[root@fgedu.net.cn ~]# mv /bigdata/app/kafka_2.13-3.3.2 /bigdata/app/kafka

# 2. 启动Zookeeper和Kafka
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/zookeeper-server-start.sh -daemon
/bigdata/app/kafka/config/zookeeper.properties
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-server-start.sh -daemon
/bigdata/app/kafka/config/server.properties

# 3. 创建主题
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-topics.sh –create –topic user-behaviors
–bootstrap-server localhost:9092 –partitions 3 –replication-factor 1
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-topics.sh –create –topic behavior-stats
–bootstrap-server localhost:9092 –partitions 3 –replication-factor 1

# 4. 模拟数据生成
[root@fgedu.net.cn ~]# vi data_generator.py
import time
import json
import random
from kafka import KafkaProducer

# 初始化Kafka生产者
producer = KafkaProducer(
bootstrap_servers=[‘localhost:9092’],
value_serializer=lambda v: json.dumps(v).encode(‘utf-8’)
)

# 模拟用户行为数据
user_ids = [f”user{i}” for i in range(1, 100)]
item_ids = [f”item{i}” for i in range(1, 1000)]
behaviors = [“click”, “view”, “purchase”, “add_to_cart”]

while True:
data = {
“user_id”: random.choice(user_ids),
“item_id”: random.choice(item_ids),
“behavior”: random.choice(behaviors),
“ts”: time.strftime(“%Y-%m-%d %H:%M:%S”)
}
# 发送数据到Kafka
producer.send(‘user-behaviors’, data)
print(f”Sent data: {data}”)
time.sleep(0.1)

# 运行数据生成器
[root@fgedu.net.cn ~]# python3 data_generator.py

# 5. 编写Flink应用
[root@fgedu.net.cn ~]# vi flink_realtime.py
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment, EnvironmentSettings

# 初始化执行环境
env = StreamExecutionEnvironment.get_execution_environment()
settings = EnvironmentSettings.new_instance().in_streaming_mode().build()
t_env = StreamTableEnvironment.create(env, settings)

# 从Kafka读取数据
t_env.execute_sql(“””
CREATE TABLE source_table (
user_id STRING,
item_id STRING,
behavior STRING,
ts STRING
) WITH (
‘connector’ = ‘kafka’,
‘topic’ = ‘user-behaviors’,
‘properties.bootstrap.servers’ = ‘localhost:9092’,
‘properties.group.id’ = ‘flink-consumer’,
‘format’ = ‘json’,
‘scan.startup.mode’ = ‘latest-offset’
)
“””)

# 处理数据
t_env.execute_sql(“””
CREATE TABLE result_table (
window_end STRING,
behavior STRING,
behavior_count BIGINT
) WITH (
‘connector’ = ‘kafka’,
‘topic’ = ‘behavior-stats’,
‘properties.bootstrap.servers’ = ‘localhost:9092’,
‘format’ = ‘json’,
‘sink.partitioner’ = ’round-robin’
)
“””)

# 执行SQL
t_env.execute_sql(“””
INSERT INTO result_table
SELECT
DATE_FORMAT(TUMBLE_END(TO_TIMESTAMP(ts), INTERVAL ‘1’ MINUTE), ‘yyyy-MM-dd HH:mm:ss’) AS window_end,
behavior,
COUNT(*) AS behavior_count
FROM source_table
GROUP BY
TUMBLE(TO_TIMESTAMP(ts), INTERVAL ‘1’ MINUTE),
behavior
“””)

# 运行Flink应用
[root@fgedu.net.cn ~]# /bigdata/app/flink/bin/flink run -m localhost:8081 -py flink_realtime.py

# 6. 消费结果数据
[root@fgedu.net.cn ~]# /bigdata/app/kafka/bin/kafka-console-consumer.sh –topic behavior-stats
–bootstrap-server localhost:9092

4.3 实时数据处理最佳实践

# 实时数据处理最佳实践
# 1. 数据采集：使用Kafka等消息队列，确保数据的可靠传输
# 2. 数据处理：使用Flink或Spark Streaming，实现实时数据处理
# 3. 状态管理：合理管理状态，确保数据处理的一致性
# 4. 容错机制：实现容错机制，确保系统的可靠性
# 5. 性能优化：优化数据处理性能，提高吞吐量
# 6. 监控与告警：配置监控与告警，及时发现和处理问题
# 7. 扩展性：设计可扩展的架构，适应业务需求的变化
# 8. 测试与验证：充分测试和验证实时数据处理系统

Part05-风哥经验总结与分享

5.1 实时数据处理经验

技术选型：根据业务需求选择合适的实时数据处理技术
架构设计：设计合理的实时数据处理架构，确保系统的可靠性和可扩展性
性能优化：优化数据处理性能，提高吞吐量和降低延迟
容错机制：实现容错机制，确保系统的可靠性
监控与告警：配置监控与告警，及时发现和处理问题

5.2 常见问题与解决方案

问题	原因	解决方案
数据处理延迟高	计算资源不足或处理逻辑复杂	增加计算资源，优化处理逻辑
数据丢失	容错机制不完善或配置错误	完善容错机制，正确配置参数
系统稳定性差	架构设计不合理或资源不足	优化架构设计，增加资源
性能瓶颈	数据量过大或处理逻辑复杂	优化数据处理逻辑，使用分区和并行处理
监控困难	监控配置不当或工具选择不合适	配置合理的监控，选择合适的监控工具

5.3 实时数据处理工具推荐

# 实时数据处理工具推荐
# 1. 消息队列：
# – Apache Kafka：分布式消息队列，高吞吐量
# – RabbitMQ：消息队列，可靠性高
# – Apache Pulsar：分布式消息系统，支持流和消息
# 2. 流处理框架：
# – Apache Flink：流处理框架，低延迟，高吞吐量
# – Spark Streaming：流处理框架，与Spark集成
# – Apache Storm：流处理框架，实时性高
# 3. 实时分析工具：
# – Apache Druid：实时分析数据库
# – Elasticsearch：搜索和分析引擎
# – InfluxDB：时序数据库
# 4. 监控工具：
# – Prometheus：监控系统
# – Grafana：可视化工具
# – Flink Dashboard：Flink监控界面

通过Hadoop集群实时数据处理的实施，可以实现对大规模数据流的实时处理和分析，提高业务响应速度，为业务决策提供实时数据支持。实时数据处理是Hadoop集群的重要应用场景，需要持续关注和优化。学习交流加群风哥QQ113257174

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

大数据教程FG147-Hadoop集群实时数据处理

目录大纲

Part01-基础概念与理论知识

1.1 实时数据处理概述

1.2 实时数据处理特点与优势

1.3 实时数据处理架构

Part02-生产环境规划与建议

2.1 实时数据处理规划

2.2 技术选型

2.3 资源规划

Part03-生产环境项目实施方案

3.1 Apache Kafka集成