工作中我自己总结的hbase文档，供初学者学习。看了这个，就不用去查什么文档了。 - 数据库编程

//www.taobao.com

title=天天特价

host=taobao.com

url=http://www.alibaba.com

content=每天…

host=alibaba.com

? Row Key: 行键，Table的主键，Table中的记录按照Row Key排序

? Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的versionnumber

? Column Family：列簇，Table在水平方向有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。

了解了HBase的体系结构和HBase数据视图够，现在让我们一起看看怎样通过Java来操作HBase数据吧！

先说说具体的API先，如下

HBaseConfiguration是每一个hbase client都会使用到的对象，它代表的是HBase配置信息。它有两种构造方式：

public HBaseConfiguration()

public HBaseConfiguration(final Configuration c)

默认的构造方式会尝试从hbase-default.xml和hbase-site.xml中读取配置。如果classpath没有这两个文件，就需要你自己设置配置。

Configuration HBASE_CONFIG = new Configuration();

HBASE_CONFIG.set(“hbase.zookeeper.quorum”,“zkServer”);

HBASE_CONFIG.set(“hbase.zookeeper.property.clientPort”,“2181″);

HBaseConfiguration cfg = newHBaseConfiguration(HBASE_CONFIG);

2) 创建表

创建表是通过HBaseAdmin对象来操作的。HBaseAdmin负责表的META信息处理。HBaseAdmin提供了createTable这个方法：

public void createTable(HTableDescriptor desc)

HTableDescriptor 代表的是表的schema, 提供的方法中比较有用的有

setMaxFileSize，指定最大的region size

setMemStoreFlushSize 指定memstore flush到HDFS上的文件大小

增加family通过 addFamily方法

public void addFamily(final HColumnDescriptorfamily)

HColumnDescriptor 代表的是column的schema，提供的方法比较常用的有

setTimeToLive:指定最大的TTL,单位是ms,过期数据会被自动删除。

setInMemory:指定是否放在内存中，对小表有用，可用于提高效率。默认关闭

setBloomFilter:指定是否使用BloomFilter,可提高随机查询效率。默认关闭

setCompressionType:设定数据压缩类型。默认无压缩。

setMaxVersions:指定数据最大保存的版本个数。默认为3。

一个简单的例子，创建了4个family的表：

HBaseAdmin hAdmin = new HBaseAdmin(hbaseConfig);

HTableDescriptor t = newHTableDescriptor(tableName);

t.addFamily(new HColumnDescriptor(“f1″));

t.addFamily(new HColumnDescriptor(“f2″));

t.addFamily(new HColumnDescriptor(“f3″));

t.addFamily(new HColumnDescriptor(“f4″));

hAdmin.createTable(t);

3) 删除表

删除表也是通过HBaseAdmin来操作，删除表之前首先要disable表。这是一个非常耗时的操作，所以不建议频繁删除表。

disableTable和deleteTable分别用来disable和delete表。

Example:

HBaseAdmin hAdmin = new HBaseAdmin(hbaseConfig);

if (hAdmin.tableExists(tableName)) {

hAdmin.disableTable(tableName);

hAdmin.deleteTable(tableName);

}

4) 查询数据

查询分为单条随机查询和批量查询。

单条查询是通过rowkey在table中查询某一行的数据。HTable提供了get方法来完成单条查询。

批量查询是通过制定一段rowkey的范围来查询。HTable提供了个getScanner方法来完成批量查询。

public Result get(final Get get)

public ResultScanner getScanner(final Scan scan)

Get对象包含了一个Get查询需要的信息。它的构造方法有两种：

publicGet(byte [] row)

publicGet(byte [] row, RowLock rowLock)

Rowlock是为了保证读写的原子性，你可以传递一个已经存在Rowlock，否则HBase会自动生成一个新的rowlock。

Scan对象提供了默认构造函数，一般使用默认构造函数。

Get/Scan的常用方法有：

addFamily/addColumn:指定需要的family或者column,如果没有调用任何addFamily或者Column,会返回所有的columns.

setMaxVersions:指定最大的版本个数。如果不带任何参数调用setMaxVersions,表示取所有的版本。如果不掉用setMaxVersions,只会取到最新的版本。

setTimeRange:指定最大的时间戳和最小的时间戳，只有在此范围内的cell才能被获取。

setTimeStamp:指定时间戳。

setFilter:指定Filter来过滤掉不需要的信息

Scan特有的方法：

setStartRow:指定开始的行。如果不调用，则从表头开始。

setStopRow:指定结束的行（不含此行）。

setBatch:指定最多返回的Cell数目。用于防止一行中有过多的数据，导致OutofMemory错误。

ResultScanner是Result的一个容器，每次调用ResultScanner的next方法，会返回Result.

public Result next() throws IOException;

public Result [] next(int nbRows) throwsIOException;

Result代表是一行的数据。常用方法有：

getRow

工作中我自己总结的hbase文档，供初学者学习。看了这个，就不用去查什么文档了。(九)

2) 创建表

3) 删除表

4) 查询数据