Hadoop利用分布式环境下软硬件资源,实现Hadoop集群的海量数据的处理能力、存储能力、计算能力,Hadoop平台架构中三大核心组件:
HDFS(分布式文件存储,集群)
Yarn(分布式资源管理,集群)
MapReduce(分布式计算处理,一个应用程序开发包)
HDFS(分布式文件存储)
一个分布式集群文件系统,可以由很多台廉价的服务器组成集成,通过目录树的方式来存储文件。
适合处理大数据,特别是大数据分析,数据量可以达到PB级,能处理百万规模以上的文件数据量。
具体高容错性,数据自动保存多个副本,某一个副本丢失后,它可以自动恢复
具有一次写、多次读、不支持文件修改的特性,但可以追加文件的数据。
不适合低延时(毫秒级)的数据访问,也无法实现高效的大量小文件存储。
分布式协调技术
解决分布式环境当中多个进程之间的同步控制,解决分布式锁,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果。
ZooKeeper介绍
是一套高性能的分布式协作服务和分布式数据一致性解决方案(由雅虎创建,是 Google 的 Chubby分布式锁服务一个开源的实现,是 Hadoop 的分布式协调服务),它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:分布式锁服务、统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
Hadoop相关软件下载地址:
本文由风哥教程整理发布,仅用于学习测试使用,转载注明出处:http://www.fgedu.net.cn/10327.html

