大数据教程FG044-Hive数据导入导出实战

内容简介：本文详细介绍Hive数据导入导出的核心方法与生产实战应用。风哥教程参考Hive官方文档Data Import Export、Load Data等内容，涵盖LOAD DATA、INSERT、EXPORT/IMPORT等多种数据导入导出方式，结合生产环境实际案例，帮助读者掌握Hive数据交换的实战技能。

目录大纲

Part01-基础概念与理论知识
  1.1 数据导入导出概述
  1.2 导入导出方式分类
  1.3 数据格式与编码
Part02-生产环境规划与建议
  2.1 导入策略规划
  2.2 导出策略规划
  2.3 性能优化建议
Part03-生产环境项目实施方案
  3.1 LOAD DATA导入实战
  3.2 INSERT导入实战
  3.3 EXPORT/IMPORT实战
Part04-生产案例与实战讲解
  4.1 批量数据导入案例
  4.2 数据迁移导出案例
  4.3 跨集群数据同步案例
Part05-风哥经验总结与分享
  5.1 导入导出最佳实践
  5.2 常见问题与解决方案
  5.3 生产环境注意事项

Part01-基础概念与理论知识

1.1 数据导入导出概述

Hive数据导入导出是数据仓库建设的基础操作，支持多种数据源和目标。更多视频教程www.fgedu.net.cn

数据导入场景：

1. 从本地文件系统导入数据
2. 从HDFS导入数据
3. 从其他表导入数据
4. 从外部数据库导入数据

数据导出场景：

1. 导出到本地文件系统
2. 导出到HDFS
3. 导出到其他表
4. 导出到外部数据库

1.2 导入导出方式分类

Hive支持多种数据导入导出方式：学习交流加群风哥微信: itpux-com

— 导入方式
— 1. LOAD DATA: 从文件加载
— 2. INSERT: 从查询结果插入
— 3. IMPORT: 从导出文件导入
— 4. Sqoop: 从关系数据库导入

— 导出方式
— 1. INSERT DIRECTORY: 导出到目录
— 2. EXPORT: 导出表数据
— 3. Sqoop: 导出到关系数据库
— 4. hdfs dfs -get: 下载到本地

1.3 数据格式与编码

数据格式和编码影响导入导出的效率：

— 常用数据格式
— TextFile: 文本格式，通用性强
— ORC: 列式存储，压缩比高
— Parquet: 列式存储，跨平台兼容
— Avro: 支持Schema演进

— 常用分隔符
— 字段分隔符: \t, ,, |
— 行分隔符: \n
— 集合分隔符: \002
— Map分隔符: \003

— 创建指定格式的表
CREATE TABLE fgedu_text_table (
  id INT,
  name STRING
) ROW FORMAT DELIMITED
  FIELDS TERMINATED BY ‘,’
  LINES TERMINATED BY ‘\n’
STORED AS TEXTFILE;

Part02-生产环境规划与建议

2.1 导入策略规划

导入策略需要根据数据量和时效性选择。风哥提示：合理的导入策略可以大幅提升数据加载效率。

— 导入策略选择
— 小批量数据: LOAD DATA LOCAL
— 大批量数据: LOAD DATA (HDFS)
— 增量数据: INSERT + 分区
— 全量数据: INSERT OVERWRITE

— 性能优化参数
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET hive.exec.parallel=true;

2.2 导出策略规划

导出策略需要考虑目标系统和数据格式：更多学习教程公众号风哥教程itpux_com

— 导出策略选择
— 报表导出: INSERT DIRECTORY + TextFile
— 备份导出: EXPORT TABLE
— 迁移导出: EXPORT + IMPORT
— 接口导出: INSERT DIRECTORY + 指定格式

— 导出格式配置
SET hive.resultset.use.unique.column.names=false;
SET hive.cli.print.header=true;

2.3 性能优化建议

性能优化可以提升导入导出效率：

— 导入优化
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=10000;

— 导出优化
SET hive.exec.reducers.bytes.per.reducer=256000000;
SET mapreduce.job.reduces=10;

— 压缩优化
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

Part03-生产环境项目实施方案

3.1 LOAD DATA导入实战

LOAD DATA是最常用的数据导入方式。from bigdata视频:www.itpux.com

— 从本地导入数据
LOAD DATA LOCAL INPATH ‘/data/orders.csv’
OVERWRITE INTO TABLE fgedu_orders
PARTITION(dt=’2024-01-19′);

— 从HDFS导入数据
LOAD DATA INPATH ‘/data/import/orders.csv’
INTO TABLE fgedu_orders
PARTITION(dt=’2024-01-19′);

— 导入带分区的数据
LOAD DATA LOCAL INPATH ‘/data/orders/’
OVERWRITE INTO TABLE fgedu_orders
PARTITION(dt=’2024-01-19′);

# 导入成功
Loading data to table default.fgedu_orders partition (dt=2024-01-19)
OK
Time taken: 2.345 seconds

# 查看导入数据
SELECT COUNT(*) FROM fgedu_orders WHERE dt=’2024-01-19′;
+———+
| _c0 |
+———+
| 1250000 |
+———+

3.2 INSERT导入实战

INSERT方式支持从查询结果导入数据。学习交流加群风哥QQ113257174

— INSERT INTO 追加数据
INSERT INTO TABLE fgedu_orders PARTITION(dt=’2024-01-19′)
SELECT order_id, user_id, product_id, amount
FROM fgedu_orders_staging
WHERE dt=’2024-01-19′;

— INSERT OVERWRITE 覆盖数据
INSERT OVERWRITE TABLE fgedu_orders PARTITION(dt=’2024-01-19′)
SELECT order_id, user_id, product_id, amount
FROM fgedu_orders_source
WHERE dt=’2024-01-19′;

— 多表插入
FROM fgedu_orders_source
INSERT INTO TABLE fgedu_orders PARTITION(dt=’2024-01-19′)
SELECT order_id, user_id, product_id, amount WHERE status=’valid’
INSERT INTO TABLE fgedu_orders_invalid PARTITION(dt=’2024-01-19′)
SELECT order_id, user_id, product_id, amount WHERE status=’invalid’;

3.3 EXPORT/IMPORT实战

EXPORT/IMPORT支持表级别的数据迁移：

— 导出表数据
EXPORT TABLE fgedu_orders TO ‘/data/export/fgedu_orders’;

— 导出分区数据
EXPORT TABLE fgedu_orders PARTITION(dt=’2024-01-19′)
TO ‘/data/export/fgedu_orders_20240119’;

— 导入表数据
IMPORT TABLE fgedu_orders_new
FROM ‘/data/export/fgedu_orders’;

— 导入到已存在的表
IMPORT TABLE fgedu_orders
FROM ‘/data/export/fgedu_orders’
LOCATION ‘/user/hive/warehouse/fgedu_orders.db/fgedu_orders’;

# 导出成功
Copying data from file:/tmp/hive/export/fgedu_orders
Copying file: file:/tmp/hive/export/fgedu_orders/data
OK
Time taken: 45.678 seconds

# 导入成功
Import: Importing table fgedu_orders_new from /data/export/fgedu_orders
Copying file: hdfs://fgedu01:8020/data/export/fgedu_orders/data
OK
Time taken: 23.456 seconds

Part04-生产案例与实战讲解

4.1 批量数据导入案例

本案例演示大批量数据的高效导入。更多视频教程www.fgedu.net.cn

#!/bin/bash
# batch_import.sh
# from:www.itpux.com.qq113257174.wx:itpux-com
# web: http://www.fgedu.net.cn

echo “=== 批量数据导入 ===”
echo “Date: $(date)”

DT=$1
if [ -z “$DT” ]; then
DT=$(date -d “-1 day” +%Y-%m-%d)
fi

# 上传数据到HDFS
hdfs dfs -mkdir -p /data/import/orders/${DT}
hdfs dfs -put /data/source/orders_${DT}.csv /data/import/orders/${DT}/

# 导入数据
hive -e “
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

LOAD DATA INPATH ‘/data/import/orders/${DT}/orders_${DT}.csv’
OVERWRITE INTO TABLE ods_trade.ods_trade_order_di
PARTITION(dt=’${DT}’);

— 数据验证
SELECT COUNT(*) AS cnt FROM ods_trade.ods_trade_order_di WHERE dt=’${DT}’;
“

echo “=== 导入完成 ===”

=== 批量数据导入 ===
Date: Fri Jan 19 02:00:00 CST 2024

# 上传数据
# 上传成功

# 导入数据
Loading data to table ods_trade.ods_trade_order_di partition (dt=2024-01-18)
OK
Time taken: 12.345 seconds

# 数据验证
+———+
| cnt |
+———+
| 1250000 |
+———+

=== 导入完成 ===

4.2 数据迁移导出案例

数据迁移导出案例演示跨环境数据迁移。学习交流加群风哥微信: itpux-com

— 数据迁移流程

— Step 1: 导出表结构和数据
EXPORT TABLE dwd_trade.dwd_trade_order_di
TO ‘/data/migration/dwd_trade_order’;

— Step 2: 下载导出文件
hdfs dfs -get /data/migration/dwd_trade_order /local/backup/;

— Step 3: 传输到目标集群
scp -r /local/backup/dwd_trade_order target_cluster:/data/import/;

— Step 4: 在目标集群导入
— 目标集群执行
IMPORT TABLE dwd_trade.dwd_trade_order_di
FROM ‘/data/import/dwd_trade_order’;

— Step 5: 验证数据
SELECT COUNT(*) FROM dwd_trade.dwd_trade_order_di;

4.3 跨集群数据同步案例

跨集群数据同步案例演示数据复制。风哥提示：跨集群同步需要考虑网络带宽和数据一致性。

— 跨集群数据同步

— 使用DistCp同步数据
hadoop distcp \
  hdfs://source_cluster:8020/user/hive/warehouse/ods_trade.db \
  hdfs://target_cluster:8020/user/hive/warehouse/ods_trade.db \
  -update -skipcrccheck;

— 同步后在目标集群修复分区
MSCK REPAIR TABLE ods_trade.ods_trade_order_di;

— 验证数据一致性
— 源集群
SELECT COUNT(*) FROM ods_trade.ods_trade_order_di;
— 目标集群
SELECT COUNT(*) FROM ods_trade.ods_trade_order_di;

Part05-风哥经验总结与分享

5.1 导入导出最佳实践

风哥在生产环境中的导入导出经验总结：from bigdata视频:www.itpux.com

1. 导入优化：

大数据量使用LOAD DATA，小数据量使用INSERT

2. 导出优化：

根据目标系统选择合适的格式和压缩方式

3. 数据验证：

导入导出后必须验证数据完整性和一致性

5.2 常见问题与解决方案

问题1：数据格式不匹配

解决方案：检查分隔符设置，确保源数据和表结构匹配。

— 检查表结构
DESCRIBE FORMATTED fgedu_table;

— 查看数据格式
hdfs dfs -cat /data/source/orders.csv | head -5;

问题2：导入数据丢失

解决方案：检查数据完整性，使用校验和验证。学习交流加群风哥QQ113257174

5.3 生产环境注意事项

1. 数据备份：重要数据导入前先备份。

2. 权限检查：确保对源和目标路径有读写权限。

3. 监控告警：建立导入导出任务监控机制。

风哥提示：数据导入导出是数据仓库日常运维的重要工作。在生产环境中，要建立完善的导入导出流程和验证机制，确保数据的完整性和一致性，同时做好数据备份和监控告警。

本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html