名词	含义
表table	Hbase以表为单位组织数据。
行row	表中数据以行为单位，byte[]存储。
	RowKey相当于额外的列，是每条记录的主键。
	各行数据按RowKey排序，用于快速查找。
列族column family	各行数据列族相同，但不是每个列族中都需要有数据。
列限定符Column Qualifier	一个列族拥有一或多列数据，各行数据列不需要相同。
单元格Cell	行、列族和列限定符的组合指定的单元格。
	单元格存放的数据成为单元格的值，没有类型，byte[]存储。
时间戳Timstamp	单元格的值可以有多个版本，各个版本由版本号区分。
	默认版本号为值被写入的时间戳。

组件	功能
HMaster	管理用户对table的创建删除修改操作
	为Region server分配region
	负责Region server的负载均衡
	发现失效的Region server并重新分配其上的region（通过zookeeper实现）
	不负责实际数据操作
Region Server	维护region，处理对这些region的IO请求,直接与client进行数据通信
	负责切分（split）在运行过程中变得过大的region
	对region进行compact操作
	在运行中可以动态添加、删除
Client	包含访问HBase的接口，并维护cache来加快对HBase的访问，比如region的位置信息
ZooKeeper	通过选举，保证任何时候，集群中只有一个HMaster
	HMaster与RegionServer启动时会向ZooKeeper注册
	存贮所有Region的寻址入口
	实时监控Region server的上线和下线信息。并实时通知给HMaster
	存储HBase的schema和table元数据，如column family
	Zookeeper的引入使得Master不再是单点故障

物理结构	功能
store	HRegion虽然是分布式存储的最小单元，但不是存储的最小单元
	HRegion由多个store组成，每个store保存一个Column Family
	每个store由1个MemStore和0到多个StoreFile组成
	MemStore存储在内存中
	StoreFile存储在HDFS上，底层称为HFile
compact	把小的HFile合并成大的，减少HFile数量，提升读效率
	执行时严重影响HBase性能
	触发后不能停止
Minor Compact	把多个HFile合成一个
Major Compact	一个store下的所有文件合并
	删除过期版本数据
	删除delete marker数据
	指定间隔时间或手动执行
splitling	当region中的数据过大时，触发splitting。
	用middle key分割成两个相邻region。速度很快，毫秒级。可以手动触发。
	真正split：创建现有HFile的引用文件，未真正分开；Compaction时才重写数据。
hmaster容错	多个HMaster，同一时间只有一个active
	HMaster失效，由ZooKeeper选择另一个HMaster
	无Hmaster过程中：
	1）读操作正常进行，因为region信息还在
	2）；region切分、负载均衡无法进行
Region Server容错	定时向Zookeeper汇报心跳
	超时则HMaster将该RegionServer上的Region重新分配到其他RegionServer
Hbase恢复-hlog	HLog是一个实现Write Ahead Log类，每次写MemStore前写入HLog
	每个RegionServer维护一个HLog
	HLog定期删除旧的文件（已经持久化到HFile的数据）
Hbase恢复-RegionServer意外中止	HMaster通过ZooKeeper感知
	处理HLog，针对不同的Region拆分Log数据
	重新分配失效region
	通过HLog信息重新写进MemStore，然后flush到HFile

（大数据分析-3）HBASE Review

xuefei2

1 HBASE基本原理及介绍

1.1 基本原理

1.1.1 HBASE基本概念

1.2 相关指令

所有评论(0)

xuefei2