回文數(shù)java mysql一張大表,一張小表,如何join最快?
mysql一張大表,一張小表,如何join最快?rows代表這個(gè)步驟相對(duì)上一步結(jié)果的每一行需要掃描的行數(shù),可以看到這個(gè)sql需要掃描的行數(shù)為35773*8134,非常大的一個(gè)數(shù)字。本來(lái)c和h表的記錄條
mysql一張大表,一張小表,如何join最快?
rows代表這個(gè)步驟相對(duì)上一步結(jié)果的每一行需要掃描的行數(shù),可以看到這個(gè)sql需要掃描的行數(shù)為35773*8134,非常大的一個(gè)數(shù)字。本來(lái)c和h表的記錄條數(shù)分別為40000 和10000 ,這幾乎是兩個(gè)表做笛卡爾積的開銷了(select * from c,h)。
于是我上網(wǎng)查了下MySQL實(shí)現(xiàn)join的原理,原來(lái)MySQL內(nèi)部采用了一種叫做 nested loop join的算法。Nested Loop Join 實(shí)際上就是通過(guò)驅(qū)動(dòng)表的結(jié)果集作為循環(huán)基礎(chǔ)數(shù)據(jù),然后一條一條的通過(guò)該結(jié)果集中的數(shù)據(jù)作為過(guò)濾條件到下一個(gè)表中查詢數(shù)據(jù),然后合并結(jié)果。如果還有第三個(gè)參與 Join,則再通過(guò)前兩個(gè)表的 Join 結(jié)果集作為循環(huán)基礎(chǔ)數(shù)據(jù),再一次通過(guò)循環(huán)查詢條件到第三個(gè)表中查詢數(shù)據(jù),如此往復(fù),基本上MySQL采用的是最容易理解的算法來(lái)實(shí)現(xiàn)join。所以驅(qū)動(dòng)表的選擇非常重要,驅(qū)動(dòng)表的數(shù)據(jù)小可以顯著降低掃描的行數(shù)。
mysql表數(shù)據(jù)量太大,達(dá)到了1億多條數(shù)據(jù),除了分庫(kù)分表之外,還有沒(méi)有其他的解決方式?
mysql在常規(guī)配置下,一般只能承受2000萬(wàn)的數(shù)據(jù)量(同時(shí)讀寫,且表中有大文本字段,單臺(tái)服務(wù)器)?,F(xiàn)在超過(guò)1億,并不斷增加的情況下,建議如下處理:
1 分表??梢园磿r(shí)間,或按一定的規(guī)則拆分,做到查詢某一條數(shù)據(jù)庫(kù),盡量在一個(gè)子表中即可。這是最有效的方法
2 讀寫分離。尤其是寫入,放在新表中,定期進(jìn)行同步。如果其中記錄不斷有update,最好將寫的數(shù)據(jù)放在 redis中,定期同步
3 表的大文本字段分離出來(lái),成為獨(dú)立的新表。大文本字段,可以使用NOSQL數(shù)據(jù)庫(kù)
4 優(yōu)化架構(gòu),或優(yōu)化SQL查詢,避免聯(lián)表查詢,盡量不要用count(*), in,遞歸等消耗性能的語(yǔ)句
5 用內(nèi)存緩存,或在前端讀的時(shí)候,增加緩存數(shù)據(jù)庫(kù)。重復(fù)讀取時(shí),直接從緩存中讀取。
上面是低成本的管理方法,基本幾臺(tái)服務(wù)器即可搞定,但是管理起來(lái)麻煩一些。
當(dāng)然,如果整體數(shù)據(jù)量特別大的話,也不在乎投入費(fèi)用的話,用集群吧,用TIDB吧