時(shí)序數(shù)據(jù)庫的索引機(jī)制：從B+樹到LSM樹的技術(shù)演進(jìn)

Xiaxin Li

2026-01-19 / 時(shí)序數(shù)據(jù)庫知識, 時(shí)序數(shù)據(jù)庫

在當(dāng)今大數(shù)據(jù)時(shí)代，時(shí)序數(shù)據(jù)庫作為處理帶時(shí)間戳數(shù)據(jù)的專用存儲系統(tǒng)，已成為物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)和智慧城市等領(lǐng)域的核心基礎(chǔ)設(shè)施。相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫，時(shí)序數(shù)據(jù)庫在海量數(shù)據(jù)寫入、存儲壓縮和時(shí)序查詢等方面有著獨(dú)特優(yōu)勢。而支撐這些優(yōu)勢的底層核心技術(shù)，正是其索引機(jī)制。本文將從傳統(tǒng)關(guān)系型數(shù)據(jù)庫廣泛采用的B+樹索引出發(fā)，深入剖析為何時(shí)序數(shù)據(jù)庫大多選擇LSM樹及其變種作為其索引基礎(chǔ)，并介紹TDengine等數(shù)據(jù)庫在索引技術(shù)上的創(chuàng)新實(shí)踐。

時(shí)序數(shù)據(jù)的特點(diǎn)與索引挑戰(zhàn)

時(shí)序數(shù)據(jù)是時(shí)間序列數(shù)據(jù)的簡稱，指按時(shí)間順序收集的一系列結(jié)構(gòu)化數(shù)據(jù)，通常由各類傳感器、設(shè)備或系統(tǒng)周期性地采集而產(chǎn)生。例如，工業(yè)設(shè)備每百毫秒采集的溫度、壓力數(shù)據(jù)，智能電表每小時(shí)記錄的用電量，或者服務(wù)器每秒監(jiān)控的CPU使用率等，都屬于典型的時(shí)序數(shù)據(jù)。

時(shí)序數(shù)據(jù)具有幾個(gè)顯著區(qū)別于傳統(tǒng)業(yè)務(wù)數(shù)據(jù)的特征，這些特征直接決定了時(shí)序數(shù)據(jù)庫索引機(jī)制的設(shè)計(jì)方向：

寫入密集型負(fù)載：時(shí)序數(shù)據(jù)采集通常是持續(xù)不斷進(jìn)行的，95%以上的操作是數(shù)據(jù)寫入，對插入性能和穩(wěn)定性要求極高，而更新和刪除操作頻次極低。
數(shù)據(jù)按時(shí)間有序到達(dá)：數(shù)據(jù)點(diǎn)通常按照時(shí)間戳順序到達(dá)，這使得基于時(shí)間范圍的查詢成為最常見的查詢模式。
數(shù)據(jù)量巨大：由于采集頻率高、設(shè)備數(shù)量多，時(shí)序數(shù)據(jù)量往往非常龐大，對存儲壓縮比高度敏感。
查詢模式特定：查詢多以時(shí)間范圍篩選為主，常見場景包括單設(shè)備最新值查詢、多設(shè)備聚合分析、降采樣處理等。

這些特點(diǎn)使得傳統(tǒng)關(guān)系型數(shù)據(jù)庫及其主要依賴的B+樹索引在應(yīng)對時(shí)序場景時(shí)面臨顯著挑戰(zhàn)，從而催生了新一代時(shí)序數(shù)據(jù)庫及其專屬索引機(jī)制的出現(xiàn)。

表：時(shí)序數(shù)據(jù)與一般結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)對比

特性?	時(shí)序數(shù)據(jù)?	一般結(jié)構(gòu)化數(shù)據(jù)?
讀寫比例?	寫多讀少，95%以上為寫入操作	讀寫相對均衡，甚至讀多寫少
數(shù)據(jù)順序?	按時(shí)間順序自然產(chǎn)生	無天然順序，隨機(jī)性強(qiáng)
數(shù)據(jù)量級?	通常非常龐大，持續(xù)增長	相對可控，有較明顯的生命周期
常見查詢?	時(shí)間范圍查詢、聚合分析、降采樣	點(diǎn)查詢、復(fù)雜聯(lián)表查詢、事務(wù)操作
更新頻率?	極少更新，偶爾刪除過期數(shù)據(jù)	頻繁更新，刪除操作常見

B+樹索引的原理與在時(shí)序場景中的局限性

B+樹索引的結(jié)構(gòu)特點(diǎn)

B+樹是一種多路平衡查找樹，是B樹的一種變體，也是MySQL、PostgreSQL等主流關(guān)系型數(shù)據(jù)庫默認(rèn)的索引結(jié)構(gòu)。B+樹的核心特征包括：

數(shù)據(jù)全存儲于葉子節(jié)點(diǎn)：所有數(shù)據(jù)記錄（或指向數(shù)據(jù)的指針）都存儲在葉子節(jié)點(diǎn)中，非葉子節(jié)點(diǎn)僅存儲鍵值和子節(jié)點(diǎn)指針，充當(dāng)導(dǎo)航索引。
葉子節(jié)點(diǎn)形成有序鏈表：所有葉子節(jié)點(diǎn)通過指針相互連接，形成一個(gè)有序雙向鏈表，極大優(yōu)化了范圍查詢效率。
樹結(jié)構(gòu)保持平衡：通過嚴(yán)格的節(jié)點(diǎn)分裂與合并機(jī)制，B+樹始終保持高度平衡，確保任何操作的時(shí)間復(fù)雜度穩(wěn)定在O(log n)。

B+樹的這種設(shè)計(jì)使其特別適合傳統(tǒng)關(guān)系型數(shù)據(jù)庫的查詢模式：非葉子節(jié)點(diǎn)不存儲實(shí)際數(shù)據(jù)，因此可以在內(nèi)存中緩存更多索引，增加緩存命中率；葉子節(jié)點(diǎn)的有序鏈表結(jié)構(gòu)使得范圍查詢非常高效；平衡樹特性保證了查詢性能的穩(wěn)定性。

B+樹在時(shí)序場景中的局限性

盡管B+樹在傳統(tǒng)數(shù)據(jù)庫中表現(xiàn)卓越，但在面對時(shí)序數(shù)據(jù)的高頻寫入場景時(shí)，卻暴露出幾個(gè)關(guān)鍵問題：

寫放大問題：B+樹的寫入過程涉及多次節(jié)點(diǎn)分裂、合并和重新平衡，導(dǎo)致實(shí)際的磁盤寫入量遠(yuǎn)大于邏輯寫入量，這種現(xiàn)象稱為寫放大。在高頻寫入的時(shí)序場景下，寫放大顯著降低了寫入吞吐量并縮短了存儲設(shè)備壽命。
隨機(jī)I/O訪問：B+樹的數(shù)據(jù)插入和更新往往是原地更新模式，當(dāng)新數(shù)據(jù)需要插入到樹中間位置時(shí)，會導(dǎo)致大量的隨機(jī)磁盤I/O。而時(shí)序數(shù)據(jù)庫的寫入負(fù)載通常是順序性很強(qiáng)的數(shù)據(jù)追加，B+樹無法充分利用這種順序性。
壓縮效率有限：B+樹頁面內(nèi)部數(shù)據(jù)并非完全有序，使得壓縮效果受限。而時(shí)序數(shù)據(jù)通常具有極高的價(jià)值密度，壓縮效率直接影響存儲成本和經(jīng)濟(jì)性。
節(jié)點(diǎn)分裂開銷：當(dāng)時(shí)序數(shù)據(jù)持續(xù)高速寫入時(shí)，B+樹葉子節(jié)點(diǎn)的分裂操作會頻繁發(fā)生，這一過程需要加鎖，可能阻塞并發(fā)讀寫操作，影響系統(tǒng)整體吞吐量。

正是這些局限性，促使時(shí)序數(shù)據(jù)庫探索并采用了更適合其工作負(fù)載的索引機(jī)制——LSM樹。

LSM樹索引的原理與在時(shí)序數(shù)據(jù)庫中的核心優(yōu)勢

LSM樹的基本思想與層次結(jié)構(gòu)

LSM樹的設(shè)計(jì)理念與B+樹截然不同。LSM樹的核心思想是將隨機(jī)寫入轉(zhuǎn)換為順序?qū)懭?/strong>，通過”先內(nèi)存后磁盤”的層次化結(jié)構(gòu)，優(yōu)化寫入性能。

LSM樹的基本工作原理如下：

寫入內(nèi)存（Memtable）：數(shù)據(jù)寫入首先被添加到內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)（稱為Memtable，通常采用跳表實(shí)現(xiàn)）。這個(gè)操作完全在內(nèi)存中進(jìn)行，速度極快，寫入后立即返回成功。

預(yù)寫日志保障持久化：為保證數(shù)據(jù)可靠性，每次寫入會先追加到預(yù)寫日志中，然后再寫入Memtable。這樣即使系統(tǒng)崩潰，也可以通過重放WAL恢復(fù)數(shù)據(jù)。

內(nèi)存數(shù)據(jù)刷盤（Flush）：當(dāng)Memtable大小達(dá)到閾值，會被標(biāo)記為只讀（Immutable Memtable），并異步刷寫到磁盤形成SSTable文件。多個(gè)SSTable文件可能在不同層級存在。

后臺文件合并（Compaction）：隨著SSTable文件增多，后臺線程會定期將多個(gè)小SSTable合并為更大的SSTable，并在此過程中清理重復(fù)數(shù)據(jù)和已刪除數(shù)據(jù)。

LSM樹如何優(yōu)化時(shí)序數(shù)據(jù)寫入

LSM樹通過幾種關(guān)鍵機(jī)制優(yōu)化時(shí)序數(shù)據(jù)的處理效率：

批量順序?qū)懱娲S機(jī)寫：LSM樹將隨機(jī)的數(shù)據(jù)寫入操作轉(zhuǎn)換為批量順序?qū)?/strong>，充分利用了磁盤順序?qū)懭脒h(yuǎn)快于隨機(jī)寫入的物理特性。這對于寫入密集的時(shí)序場景尤為重要。

寫放大可控：通過調(diào)整Compaction策略和頻率，可以在寫放大和讀性能之間取得平衡。某些Compaction算法（如層級Compaction）可以顯著降低寫放大。

高數(shù)據(jù)壓縮率：SSTable文件中的數(shù)據(jù)按Key有序排列，且通常采用列式存儲，使得數(shù)據(jù)能夠獲得更高的壓縮率。這對于數(shù)據(jù)量龐大的時(shí)序場景意味著顯著的存儲成本節(jié)約。

LSM樹的挑戰(zhàn)與優(yōu)化策略

當(dāng)然，LSM樹也面臨一些挑戰(zhàn)，最主要的便是讀放大問題。由于數(shù)據(jù)可能分布在多個(gè)SSTable文件中，一次查詢可能需要檢查多個(gè)文件，導(dǎo)致讀操作開銷增加。為緩解這一問題，時(shí)序數(shù)據(jù)庫采用了多種優(yōu)化策略：

Bloom過濾器：快速判斷一個(gè)Key是否存在于某個(gè)SSTable中，避免不必要的文件查找。

塊緩存：將頻繁訪問的數(shù)據(jù)塊緩存到內(nèi)存中，加速后續(xù)讀取。

層級索引：為SSTable建立多級索引，加速數(shù)據(jù)定位過程。

表：LSM樹與B+樹關(guān)鍵特性對比

特性? LSM樹? B+樹? 對時(shí)序場景的影響?
寫入性能? 高（順序追加寫）中（原地更新，隨機(jī)寫） LSM樹更適合高頻寫入場景
讀取性能? 中（可能需查多文件）高（穩(wěn)定樹高度） B+樹點(diǎn)查詢響應(yīng)更穩(wěn)定
空間放大? 低（高壓縮率）中（節(jié)點(diǎn)內(nèi)有空隙） LSM樹存儲成本更低
寫放大? 可控（依賴Compaction策略）高（節(jié)點(diǎn)分裂開銷） LSM樹磁盤磨損更可控
范圍查詢? 中（依賴文件合并）高（葉子節(jié)點(diǎn)鏈表） B+樹范圍查詢更優(yōu)

TDengine的混合索引機(jī)制實(shí)踐

TDengine作為一款高性能時(shí)序數(shù)據(jù)庫，沒有簡單采用單一的索引策略，而是創(chuàng)新地設(shè)計(jì)了混合索引機(jī)制，結(jié)合了B樹與LSM樹的各自優(yōu)勢。

元數(shù)據(jù)與數(shù)據(jù)的差異化索引策略

TDengine對元數(shù)據(jù)和時(shí)序數(shù)據(jù)本身采用了不同的索引策略：

元數(shù)據(jù)索引：在TDengine 3.0之前，元數(shù)據(jù)（主要是時(shí)間戳+指標(biāo)數(shù)據(jù)）全內(nèi)存存儲，以哈希表方式存儲并輔以跳表索引。3.0版本引入了TDB引擎，基于B+樹存儲元數(shù)據(jù)及元數(shù)據(jù)索引，適合元數(shù)據(jù)讀多寫少的場景，能夠支持百億時(shí)間線的存儲。

時(shí)序數(shù)據(jù)索引：時(shí)序數(shù)據(jù)（采集信息）采用類LSM結(jié)構(gòu)存儲，時(shí)序數(shù)據(jù)在內(nèi)存中以跳表方式進(jìn)行索引，在硬盤中以塊范圍索引（BRIN）方式進(jìn)行索引。這種設(shè)計(jì)充分發(fā)揮了LSM樹在寫入性能上的優(yōu)勢。

混合索引的優(yōu)勢與實(shí)現(xiàn)

TDengine的混合索引設(shè)計(jì)實(shí)現(xiàn)了讀性能與寫性能的平衡：

B樹處理元數(shù)據(jù)：元數(shù)據(jù)通常比時(shí)序數(shù)據(jù)本身小幾個(gè)數(shù)量級，但訪問頻率較高。使用B+樹存儲可以在有限內(nèi)存下支持海量元數(shù)據(jù)管理，同時(shí)提供高效的查詢能力。

LSM樹處理時(shí)序數(shù)據(jù)：時(shí)序數(shù)據(jù)量巨大，寫入壓力大，LSM樹的結(jié)構(gòu)恰好適合這種順序追加寫的工作負(fù)載，同時(shí)提供良好的壓縮效果。

這種混合架構(gòu)使得TDengine既避免了B+樹的寫放大問題，又緩解了LSM樹的讀放大問題，在大規(guī)模時(shí)序數(shù)據(jù)場景下表現(xiàn)出優(yōu)異的綜合性能。

TDengine 3.0的索引優(yōu)化

TDengine 3.0在索引機(jī)制上進(jìn)行了重大改進(jìn)，主要包括三個(gè)方面：

TQ（基于WAL的消息隊(duì)列）：優(yōu)化了數(shù)據(jù)流的處理效率。

META（基于TDB的元數(shù)據(jù)存儲引擎）：使用B+樹格式存儲元數(shù)據(jù)，解決了全內(nèi)存存儲的限制。

TSDB（類LSM的時(shí)序數(shù)據(jù)存儲引擎）：進(jìn)一步優(yōu)化了時(shí)序數(shù)據(jù)的存儲和查詢效率。

這些改進(jìn)使得TDengine能夠更好地應(yīng)對超大規(guī)模時(shí)序數(shù)據(jù)場景，同時(shí)在有限內(nèi)存資源下保持高性能。

總結(jié)與展望

時(shí)序數(shù)據(jù)庫的索引機(jī)制從B+樹到LSM樹的演進(jìn)，反映了數(shù)據(jù)庫技術(shù)針對不同工作負(fù)載進(jìn)行專用化優(yōu)化的發(fā)展趨勢。B+樹為讀優(yōu)化，適合讀多寫少的傳統(tǒng)業(yè)務(wù)場景；LSM樹為寫優(yōu)化，契合時(shí)序數(shù)據(jù)寫多讀少的特性。而TDengine的混合索引策略代表了另一種思路——根據(jù)數(shù)據(jù)類型選擇最合適的索引結(jié)構(gòu)，從而達(dá)到整體性能的最優(yōu)平衡。

未來，時(shí)序數(shù)據(jù)庫的索引技術(shù)可能呈現(xiàn)以下幾個(gè)發(fā)展方向：

智能索引選擇：數(shù)據(jù)庫自動根據(jù)工作負(fù)載特征選擇最優(yōu)索引策略，甚至支持在線動態(tài)調(diào)整。

異構(gòu)硬件適配：針對NVMe SSD、持久內(nèi)存等新型存儲硬件優(yōu)化索引結(jié)構(gòu)，充分發(fā)揮硬件性能。

AI增強(qiáng)的索引：利用機(jī)器學(xué)習(xí)技術(shù)預(yù)測查詢模式，自動調(diào)整索引參數(shù)，實(shí)現(xiàn)自適應(yīng)優(yōu)化。

時(shí)序數(shù)據(jù)庫的索引機(jī)制作為其核心組件，將繼續(xù)隨著應(yīng)用場景的擴(kuò)展和技術(shù)的進(jìn)步而不斷演化，為各行業(yè)的數(shù)字化轉(zhuǎn)型提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)設(shè)施支撐。

特性?	LSM樹?	B+樹?	對時(shí)序場景的影響?
寫入性能?	高（順序追加寫）	中（原地更新，隨機(jī)寫）	LSM樹更適合高頻寫入場景
讀取性能?	中（可能需查多文件）	高（穩(wěn)定樹高度）	B+樹點(diǎn)查詢響應(yīng)更穩(wěn)定
空間放大?	低（高壓縮率）	中（節(jié)點(diǎn)內(nèi)有空隙）	LSM樹存儲成本更低
寫放大?	可控（依賴Compaction策略）	高（節(jié)點(diǎn)分裂開銷）	LSM樹磁盤磨損更可控
范圍查詢?	中（依賴文件合并）	高（葉子節(jié)點(diǎn)鏈表）	B+樹范圍查詢更優(yōu)

實(shí)時(shí)數(shù)據(jù)庫與流處理引擎集成實(shí)踐：構(gòu)建端到端實(shí)時(shí)數(shù)據(jù)鏈路

營收連續(xù)四年翻倍增長，TDengine 的AI 2025：重塑產(chǎn)品、組織與增長

繼續(xù)探索 >>

用戶案例 >>

技術(shù)文章 >>

社區(qū)活動 >>

新聞 >>

智能制造

石油化工

電力

大交通

公共事業(yè)

更多行業(yè)實(shí)踐

文檔

博客

資源

活動

TDengine TSDB-OSS

知識庫

認(rèn)證

開發(fā)者論壇

授權(quán)分銷商

云服務(wù)伙伴

技術(shù)生態(tài)解決方案

社區(qū)伙伴

時(shí)序數(shù)據(jù)庫的索引機(jī)制：從B+樹到LSM樹的技術(shù)演進(jìn)

時(shí)序數(shù)據(jù)的特點(diǎn)與索引挑戰(zhàn)

B+樹索引的原理與在時(shí)序場景中的局限性

B+樹索引的結(jié)構(gòu)特點(diǎn)

B+樹在時(shí)序場景中的局限性

LSM樹索引的原理與在時(shí)序數(shù)據(jù)庫中的核心優(yōu)勢

LSM樹的基本思想與層次結(jié)構(gòu)

LSM樹如何優(yōu)化時(shí)序數(shù)據(jù)寫入

LSM樹的挑戰(zhàn)與優(yōu)化策略

TDengine的混合索引機(jī)制實(shí)踐

元數(shù)據(jù)與數(shù)據(jù)的差異化索引策略

混合索引的優(yōu)勢與實(shí)現(xiàn)

TDengine 3.0的索引優(yōu)化

總結(jié)與展望

IDMP 視頻教程

事件趨勢圖使用教程

資產(chǎn)模型功能演示

六月婷婷AV,国产偷窥猎奇福利二区,日韩三级片。,好吊色网站,日韩成人中文在线视频,国产亚洲午夜啪啪,亚洲欧美另类国产精品,国产成人av1,任你艹在线观看

智能制造

石油化工

電力

大交通

公共事業(yè)

更多行業(yè)實(shí)踐

文檔

博客

資源

活動

TDengine TSDB-OSS

知識庫

認(rèn)證

開發(fā)者論壇

授權(quán)分銷商

云服務(wù)伙伴

技術(shù)生態(tài)解決方案

社區(qū)伙伴

時(shí)序數(shù)據(jù)庫的索引機(jī)制：從B+樹到LSM樹的技術(shù)演進(jìn)

時(shí)序數(shù)據(jù)的特點(diǎn)與索引挑戰(zhàn)

B+樹索引的原理與在時(shí)序場景中的局限性

B+樹索引的結(jié)構(gòu)特點(diǎn)

B+樹在時(shí)序場景中的局限性

LSM樹索引的原理與在時(shí)序數(shù)據(jù)庫中的核心優(yōu)勢

LSM樹的基本思想與層次結(jié)構(gòu)

LSM樹如何優(yōu)化時(shí)序數(shù)據(jù)寫入

LSM樹的挑戰(zhàn)與優(yōu)化策略

TDengine的混合索引機(jī)制實(shí)踐

元數(shù)據(jù)與數(shù)據(jù)的差異化索引策略

混合索引的優(yōu)勢與實(shí)現(xiàn)

TDengine 3.0的索引優(yōu)化

總結(jié)與展望

IDMP 視頻教程

事件趨勢圖使用教程

資產(chǎn)模型功能演示