rowkey設(shè)計(jì)不合理怎么解決 hbase聚合原理？

2023-05-31

5000

hbase聚合原理？1、存儲(chǔ)引擎HBase是Google的BigTable的開(kāi)源實(shí)現(xiàn)，底層存儲(chǔ)引擎是實(shí)現(xiàn)LSM-Tree數(shù)據(jù)結(jié)構(gòu)啊,設(shè)計(jì)的。中寫(xiě)入數(shù)據(jù)時(shí)會(huì)先寫(xiě)WAL日志，再將數(shù)據(jù)在寫(xiě)寫(xiě)緩存MemSto

hbase聚合原理？

1、存儲(chǔ)引擎

HBase是Google的BigTable的開(kāi)源實(shí)現(xiàn)，底層存儲(chǔ)引擎是實(shí)現(xiàn)LSM-Tree數(shù)據(jù)結(jié)構(gòu)啊,設(shè)計(jì)的。中寫(xiě)入數(shù)據(jù)時(shí)會(huì)先寫(xiě)WAL日志，再將數(shù)據(jù)在寫(xiě)寫(xiě)緩存MemStore中，等寫(xiě)緩存達(dá)到是有規(guī)模后或滿(mǎn)足其他觸發(fā)條件才會(huì)flush刷寫(xiě)完磁盤(pán)，這樣的話就將磁盤(pán)必掉寫(xiě)變成了順序?qū)?，提高了?xiě)性能。在這一刻刷寫(xiě)磁盤(pán)都會(huì)生成新的HFile文件

2、數(shù)據(jù)模型

關(guān)與HBase的數(shù)據(jù)模型，和關(guān)系型數(shù)據(jù)類(lèi)似于，包括命名空間（namespace）、表、行、列、列族、列標(biāo)準(zhǔn)限制符、單元格（cell）、時(shí)間戳等，具體詳細(xì)概念比較比較好理解就不是太多回答了。而HBase在不好算存儲(chǔ)數(shù)據(jù)的時(shí)候是以更加有序KV的形式組織的。

3、列族式存儲(chǔ)

HBase并并非行式存儲(chǔ)，也也不是已經(jīng)的列式存儲(chǔ)，只是再朝列族的列族式存儲(chǔ)。前面也說(shuō)起了，HBase的每一列數(shù)據(jù)在底層大都以KV形式儲(chǔ)存的，而對(duì)于一行數(shù)據(jù)，同樣的列族的不同列的數(shù)據(jù)是順序相鄰貯存的，這種模式雖然是行式存儲(chǔ)；而如果一個(gè)列族下只能一個(gè)列的話，那就是一種列式存儲(chǔ)。而我們也算HBase是一種列族式存儲(chǔ)。

4、關(guān)于索引

默認(rèn)情況下HBase只對(duì)rowkey做了單列索引，所以我HBase能按照rowkey進(jìn)行高效率的單點(diǎn)可以查詢(xún)及小范圍掃描。HBase索引我還是也很單個(gè)體的，通過(guò)非rowkey列網(wǎng)上查詢(xún)性能比較低，除非對(duì)非Rowkey列做二級(jí)索引，不然的話不建議依據(jù)非rowkey列做網(wǎng)上查詢(xún)。

HBase的Rowkey設(shè)計(jì)的3個(gè)原則？

一、rowkey長(zhǎng)度原則

rowkey是一個(gè)二進(jìn)制碼流，是可以為任意字符串，最大長(zhǎng)度為64kb，實(shí)踐應(yīng)用中好象為10-100bytes，它以byte[]形式保存，像是修改成定長(zhǎng)。

好象越短越好，別將近16個(gè)字節(jié)，注意一點(diǎn)原因如下：

1、目前操作系統(tǒng)大都64位系統(tǒng)，內(nèi)存8字節(jié)角點(diǎn)，再控制在16字節(jié)，8字節(jié)的整數(shù)倍利用了操作系統(tǒng)的適宜特性。

2、hbase將部分?jǐn)?shù)據(jù)加載到內(nèi)存當(dāng)中，假如rowkey過(guò)長(zhǎng)，內(nèi)存的快速有效利用率變會(huì)下降。

二、rowkey散列原則

假如rowkey遵循時(shí)間戳的遞增，最好別將時(shí)間放在旁邊二進(jìn)制碼的前面，建議將rowkey的高位字節(jié)區(qū)分散列字段處理，由程序隨即生成。低位放時(shí)間字段，這樣將增強(qiáng)數(shù)據(jù)均衡分布的位置，那里regionServer負(fù)載均衡的幾率。

要是不并且散列如何處理，首字段然后在用時(shí)間信息，所有該時(shí)段的數(shù)據(jù)都將集中到一個(gè)regionServer當(dāng)中，這樣的當(dāng)檢索到數(shù)據(jù)時(shí)，負(fù)載會(huì)聚集到極個(gè)別regionServer上，倒致熱點(diǎn)問(wèn)題，會(huì)減低網(wǎng)上查詢(xún)效率。

三、rowkey任何原則

必須在設(shè)計(jì)上保證其唯一性，rowkey是明確的字典順序排序存儲(chǔ)位置的，因此，設(shè)計(jì)rowkey的時(shí)候，要充分利用好這個(gè)排序的特點(diǎn)，將偶爾會(huì)讀取文件的數(shù)據(jù)存儲(chǔ)到一塊，將最近可能會(huì)被ftp連接的數(shù)據(jù)扔到一塊。可是這里的量又不能太大，如果不是太大需要拆分到多個(gè)節(jié)點(diǎn)上去。

所以才良好素質(zhì)的rowkey設(shè)計(jì)，應(yīng)當(dāng)由遵循三大原則，但是能讓數(shù)據(jù)收攏，最大限度地盡量減少社會(huì)熱點(diǎn)問(wèn)題。本節(jié)介紹幾種常用的rowkey設(shè)計(jì)方法，以供同學(xué)們?cè)趺磳W(xué)習(xí)。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

hbase聚合原理？

HBase的Rowkey設(shè)計(jì)的3個(gè)原則？

相關(guān)推薦

hbase聚合原理？