ElasticSearch如何解決深分頁(yè)問題

2024-03-17

4008

ElasticSearch（ES）是一個(gè)開源的分布式搜索引擎，但在處理海量數(shù)據(jù)時(shí)會(huì)遇到深分頁(yè)問題。ES默認(rèn)查詢數(shù)據(jù)條數(shù)最大為10000條，超過這個(gè)數(shù)量就可能導(dǎo)致查詢失敗或超時(shí)。本文將探討ES深分頁(yè)問題

ES出現(xiàn)深分頁(yè)問題的原因

ES默認(rèn)采用的分頁(yè)方式是`from`和`size`的形式。當(dāng)需要查詢接近10000條數(shù)據(jù)之后的數(shù)據(jù)時(shí)，ES必須在每個(gè)分片上匹配、排序并獲取前10000條數(shù)據(jù)，然后才能提取所需數(shù)據(jù)。這種處理方式導(dǎo)致即使我們只需要少量數(shù)據(jù)，ES也會(huì)處理大量數(shù)據(jù)進(jìn)行排序，降低了效率。隨著深度分頁(yè)的增加，ES的效率會(huì)變得非常低下。

scroll滾動(dòng)搜索解決深分頁(yè)問題

為了解決ES深分頁(yè)問題，可以使用scroll滾動(dòng)搜索。首先，發(fā)起一個(gè)帶有參數(shù)`scroll1m`的GET請(qǐng)求，獲取一個(gè)`_scroll_id`。接著，使用該`_scroll_id`來翻頁(yè)，反復(fù)執(zhí)行該請(qǐng)求，直到獲取所有數(shù)據(jù)為止。需要注意的是：加快索引速度可以在第一步請(qǐng)求中添加`sort`選項(xiàng)；`scroll`參數(shù)表示`_scroll_id`的有效期，需要大于處理一頁(yè)數(shù)據(jù)的時(shí)間；scroll滾動(dòng)搜索會(huì)實(shí)時(shí)制作快照，但不包含最近的更新操作。

search_after假分頁(yè)方式解決深分頁(yè)問題

另一種解決深分頁(yè)問題的方法是使用search_after假分頁(yè)方式。通過記錄上一頁(yè)的最后一條數(shù)據(jù)來確定下一頁(yè)的位置，同時(shí)在分頁(yè)過程中，任何數(shù)據(jù)增刪改查都會(huì)實(shí)時(shí)反映到游標(biāo)上。為了找到每一頁(yè)的最后一條數(shù)據(jù)，每個(gè)文檔必須有一個(gè)全局唯一值，通常使用`_uid`作為全局唯一值。下一次分頁(yè)時(shí)，需要帶上上一頁(yè)結(jié)果集的最后一條數(shù)據(jù)的值。

from、size分頁(yè)、scroll滾動(dòng)搜索、search_after假分頁(yè)比較

1. from、size分頁(yè)：性能較低，靈活性好，實(shí)現(xiàn)簡(jiǎn)單，但存在深分頁(yè)問題，適用于數(shù)據(jù)量較小、能容忍深度分頁(yè)的場(chǎng)景。

2. scroll滾動(dòng)搜索：性能中等，解決了深度分頁(yè)問題，但無法反應(yīng)數(shù)據(jù)的實(shí)時(shí)性，需要維護(hù)一個(gè)_scroll_id，適用于需要查詢海量結(jié)果集的場(chǎng)景。

3. search_after假分頁(yè)：性能最佳，不存在深度分頁(yè)問題，能夠反映數(shù)據(jù)的實(shí)時(shí)變更，但實(shí)現(xiàn)較為復(fù)雜，需要全局唯一字段，適用于需要分頁(yè)查詢海量數(shù)據(jù)的場(chǎng)景。

通過以上對(duì)比，根據(jù)不同需求和場(chǎng)景選擇合適的分頁(yè)方式能夠更有效地解決ES深分頁(yè)問題，提高查詢效率和性能。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

相關(guān)推薦