隨著數(shù)據(jù)通訊成本的急劇下降,以及各種傳感技術(shù)和智能設(shè)備的出現(xiàn),從手環(huán)、共享出行、智能電表、環(huán)境監(jiān)測(cè)設(shè)備到電梯、數(shù)控機(jī)床、挖掘機(jī)、工業(yè)生產(chǎn)線等都在源源不斷的產(chǎn)生海量的實(shí)時(shí)數(shù)據(jù)并發(fā)往云端。這些海量數(shù)據(jù)是社會(huì)和企業(yè)寶貴的財(cái)富,能夠幫助企業(yè)實(shí)時(shí)監(jiān)控業(yè)務(wù)或設(shè)備的運(yùn)行情況,生成各種維度的報(bào)表,而且通過(guò)大數(shù)據(jù)分析和機(jī)器學(xué)習(xí),對(duì)業(yè)務(wù)進(jìn)行預(yù)測(cè)和預(yù)警,幫助社會(huì)或企業(yè)進(jìn)行科學(xué)決策、節(jié)約成本并創(chuàng)造新的價(jià)值。
Gartner報(bào)告聯(lián)網(wǎng)的設(shè)備在2019年已經(jīng)超過(guò)142億,預(yù)計(jì)2021年將達(dá)到250億,這是一個(gè)巨大的數(shù)量,產(chǎn)生海量的數(shù)據(jù)。但與現(xiàn)在大家所熟悉的互聯(lián)網(wǎng)相比,物聯(lián)網(wǎng)IoT平臺(tái)數(shù)據(jù)有其顯著不同特點(diǎn),本文對(duì)其特點(diǎn)做一分析。
- 數(shù)據(jù)是時(shí)序的,一定帶有時(shí)間戳:聯(lián)網(wǎng)的設(shè)備按照設(shè)定的周期,或受外部的事件觸發(fā),源源不斷的產(chǎn)生數(shù)據(jù),每一個(gè)數(shù)據(jù)點(diǎn)是在一時(shí)間點(diǎn)產(chǎn)生的,這個(gè)時(shí)間對(duì)于數(shù)據(jù)的計(jì)算和分析十分重要,必須要記錄。
- 數(shù)據(jù)是結(jié)構(gòu)化的:網(wǎng)絡(luò)爬蟲(chóng)的數(shù)據(jù)、微博、微信的海量數(shù)據(jù)都是非結(jié)構(gòu)化的,可以是文字、圖片、視頻等等。但物聯(lián)網(wǎng)IoT平臺(tái)設(shè)備產(chǎn)生的數(shù)據(jù)往往是結(jié)構(gòu)化的,而且是數(shù)值型的,比如智能電表采集的電流、電壓就可以用4字節(jié)的標(biāo)準(zhǔn)的浮點(diǎn)數(shù)來(lái)表示。
- 數(shù)據(jù)極少有更新操作:聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)是機(jī)器日志數(shù)據(jù),一般不容許而且也沒(méi)有修改的必要。很少有場(chǎng)景,需要對(duì)采集的原始數(shù)據(jù)進(jìn)行修改。但對(duì)于一個(gè)典型的信息化或互聯(lián)網(wǎng)應(yīng)用,記錄是一定可以修改或刪除的。
- 數(shù)據(jù)源是唯一的:一個(gè)物聯(lián)網(wǎng)IoT平臺(tái)設(shè)備采集的數(shù)據(jù)與另外一個(gè)設(shè)備采集的數(shù)據(jù)是完全獨(dú)立的。一臺(tái)設(shè)備的數(shù)據(jù)一定是這臺(tái)設(shè)備產(chǎn)生的,不可能是人工或其他設(shè)備產(chǎn)生的,也就是說(shuō)一臺(tái)設(shè)備的數(shù)據(jù)只有一個(gè)生產(chǎn)者,數(shù)據(jù)源是唯一的。
- 相對(duì)互聯(lián)網(wǎng)應(yīng)用,寫(xiě)多讀少:對(duì)于互聯(lián)網(wǎng)應(yīng)用,一條數(shù)據(jù)記錄,往往是一次寫(xiě),很多次讀。比如一條微博或一篇微信公共號(hào)文章,一次寫(xiě),但有可能上百萬(wàn)人讀。但物聯(lián)網(wǎng)IoT平臺(tái)設(shè)備產(chǎn)生的數(shù)據(jù)不一樣,對(duì)于產(chǎn)生的數(shù)據(jù),一般是計(jì)算、分析程序自動(dòng)的讀,而且計(jì)算、分析次數(shù)不多,只有分析事故等場(chǎng)景,人才會(huì)主動(dòng)看原始數(shù)據(jù)。
- 用戶關(guān)注的是一段時(shí)間的趨勢(shì):對(duì)于一條銀行記錄,或者一條微博、微信,對(duì)于它的用戶而言,每一條都很重要。但對(duì)于物聯(lián)網(wǎng)IoT平臺(tái)數(shù)據(jù),每個(gè)數(shù)據(jù)點(diǎn)與數(shù)據(jù)點(diǎn)的變化并不大,一般是漸變的,大家關(guān)心的更多是一段時(shí)間,比如過(guò)去的五分鐘,過(guò)去的一個(gè)小時(shí)數(shù)據(jù)變化的趨勢(shì),一般對(duì)某一特定時(shí)間點(diǎn)的數(shù)據(jù)值并不關(guān)注。
- 數(shù)據(jù)是有保留期限的:采集的數(shù)據(jù)一般都有基于時(shí)長(zhǎng)的保留策略,比如僅僅保留一天、一周、一個(gè)月、一年甚至更長(zhǎng)時(shí)間,為節(jié)省存儲(chǔ)空間,系統(tǒng)最好能自動(dòng)刪除。
- 數(shù)據(jù)的查詢分析往往是基于時(shí)間段和某一組設(shè)備的:對(duì)于物聯(lián)網(wǎng)IoT平臺(tái)數(shù)據(jù),做計(jì)算和分析的時(shí)候,一定是指定時(shí)間范圍的,不會(huì)只針對(duì)一個(gè)時(shí)間點(diǎn)或者整個(gè)歷史進(jìn)行。而且往往需要根據(jù)分析的維度,對(duì)物聯(lián)網(wǎng)IoT平臺(tái)設(shè)備的一個(gè)子集采集的數(shù)據(jù)進(jìn)行分析,比如某個(gè)地理區(qū)域的設(shè)備,某個(gè)型號(hào)、某個(gè)批次的設(shè)備,某個(gè)廠商的設(shè)備等等。
- 除存儲(chǔ)查詢外,往往需要實(shí)時(shí)分析計(jì)算操作:對(duì)于大部分互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用,更多的是離線分析,即使有實(shí)時(shí)分析,但實(shí)時(shí)分析的要求并不高。比如用戶畫(huà)像、可以積累一定的用戶行為數(shù)據(jù)后進(jìn)行,早一天晚一天畫(huà)不會(huì)怎么影響結(jié)果。但是對(duì)于物聯(lián)網(wǎng)IoT平臺(tái)應(yīng)用,對(duì)數(shù)據(jù)的實(shí)時(shí)計(jì)算要求往往很高,因?yàn)樾枰鶕?jù)計(jì)算結(jié)果進(jìn)行實(shí)時(shí)報(bào)警,以避免事故的發(fā)生。
- 流量平穩(wěn)、可預(yù)測(cè):給定物聯(lián)網(wǎng)IoT平臺(tái)數(shù)量、數(shù)據(jù)采集頻次,就可以較為準(zhǔn)確的估算出所需要的帶寬和流量,每天新生成的數(shù)據(jù)大小。而不是像電商,在雙11期間,淘寶、天貓、京東等流量是幾十倍的漲幅。不像12306網(wǎng)站,春節(jié)期間,網(wǎng)站流量是幾十倍的增長(zhǎng)。
- 數(shù)據(jù)處理的特殊性:與典型的互聯(lián)網(wǎng)相比,還有不一樣的數(shù)據(jù)處理需求。比如要檢查某個(gè)具體時(shí)間的設(shè)備采集的某個(gè)量,但傳感器實(shí)際采集的時(shí)間不是這個(gè)時(shí)間點(diǎn),這時(shí)候往往需要做插值處理。還有很多場(chǎng)景,需要基于采集量,做復(fù)雜的數(shù)學(xué)函數(shù)計(jì)算。
- 數(shù)據(jù)量巨大:以智能電表為例,一臺(tái)智能電表每隔15分鐘采集一次數(shù)據(jù),每天自動(dòng)生成96條記錄,全國(guó)就有接近5億臺(tái)智能電表,每天光智能電表就生成近500億條記錄。一臺(tái)聯(lián)網(wǎng)的汽車(chē)每隔10到15秒就采集一次數(shù)據(jù)發(fā)到云端,一臺(tái)車(chē)一天就很容易產(chǎn)生1000條記錄。如果中國(guó)2億輛車(chē)全部聯(lián)網(wǎng),每天將產(chǎn)生2000億條記錄。五年之內(nèi),物聯(lián)網(wǎng)IoT平臺(tái)設(shè)備產(chǎn)生的數(shù)據(jù)將占世界數(shù)據(jù)總量的90%以上。
物聯(lián)網(wǎng)IoT平臺(tái)數(shù)據(jù)、互聯(lián)網(wǎng)工業(yè)大數(shù)據(jù)是流式數(shù)據(jù),象視頻流,而且單個(gè)數(shù)據(jù)點(diǎn)的價(jià)值很低,甚至丟失一小段時(shí)間的數(shù)據(jù)也不影響分析的結(jié)論,也不影響系統(tǒng)的正常運(yùn)行。但看似簡(jiǎn)單的事情,由于數(shù)據(jù)記錄條數(shù)巨大,導(dǎo)致數(shù)據(jù)的實(shí)時(shí)寫(xiě)入成為瓶頸,查詢分析極為 緩慢,成為新的技術(shù)挑戰(zhàn)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)、NoSQL 數(shù)據(jù)庫(kù)以及流式計(jì)算引擎由于沒(méi)有充分利用物聯(lián)網(wǎng)IoT平臺(tái)數(shù)據(jù)的特點(diǎn),性能提升極為有限,只能依靠集群技術(shù),投入更多的計(jì)算資源 和存儲(chǔ)資源來(lái)處理,系統(tǒng)的運(yùn)營(yíng)維護(hù)成本急劇上升。
面對(duì)這一高速增長(zhǎng)的物聯(lián)網(wǎng)IoT平臺(tái)數(shù)據(jù)市場(chǎng),近幾年出現(xiàn)一批專(zhuān)注時(shí)序數(shù)據(jù)處理的公司,比如美國(guó)的InfluxData,其融資已經(jīng)超過(guò)1.3億美元,其產(chǎn)品InfluxDB在IT運(yùn)維監(jiān)測(cè)方面有相當(dāng)?shù)氖袌?chǎng)占有率。在工業(yè)控制領(lǐng)域老牌實(shí)時(shí)數(shù)據(jù)庫(kù)公司OSIsoft在2017年5月獲得軟銀12億美元的投資,期望成為新興的物聯(lián)網(wǎng)IoT平臺(tái)領(lǐng)域的數(shù)據(jù)庫(kù)的領(lǐng)頭羊。開(kāi)源社區(qū)也十分活躍,比如基于HBase開(kāi)發(fā)的OpenTSDB。中國(guó)國(guó)內(nèi),阿里、百度、華為都有基于OpenTSDB的產(chǎn)品。
2017年成立的北京濤思數(shù)據(jù)科技有限公司看好這一市場(chǎng),不依賴任何第三方軟件或開(kāi)源軟件,在吸取眾多傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)、NoSQL 數(shù)據(jù)庫(kù)、流式計(jì)算引擎、消息隊(duì)列等軟件的優(yōu)點(diǎn)之后自主開(kāi)發(fā)了TDengine Database,一個(gè)完整的時(shí)序大數(shù)據(jù)處理引擎。TDengine Database的性能遠(yuǎn)超InfluxDB, 而且其安裝、部署、維護(hù)簡(jiǎn)單,使用SQL接口,學(xué)習(xí)成本幾乎為零,有望成為時(shí)序數(shù)據(jù)處理市場(chǎng)的一匹黑馬。



互聯(lián)網(wǎng).png)



-1.png)




.png)


證.png)


伙伴.png)
伙伴.png)
伙伴.png)



