通用大數(shù)據(jù)架構(gòu)為什么不適合處理物聯(lián)網(wǎng)數(shù)據(jù)？

Jeff Tao

2019-07-09 / Chinese, 技術(shù)文章 - 時(shí)序數(shù)據(jù)庫(kù)

為處理日益增長(zhǎng)的互聯(lián)網(wǎng)數(shù)據(jù)，眾多的工具開(kāi)始出現(xiàn)，最流行的應(yīng)該是Hadoop體系。除使用大家所熟悉的Hadoop組件如HDFS、MapReduce、HBase和Hive外，通用的大數(shù)據(jù)處理平臺(tái)往往還使用Kafka或其他消息隊(duì)列工具，Redis或其他緩存軟件，F(xiàn)link或其他實(shí)時(shí)流式數(shù)據(jù)處理軟件。存儲(chǔ)上也有人選用MongoDB，Cassandra或其他NoSQL數(shù)據(jù)庫(kù)。這樣一個(gè)典型的大數(shù)據(jù)處理平臺(tái)基本上能很好的處理互聯(lián)網(wǎng)行業(yè)的引用，比如典型的用戶畫(huà)像、輿情分析等等。

很自然，在物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)起來(lái)后，大家都想到的是用通用的大數(shù)據(jù)處理平臺(tái)來(lái)處理它們的數(shù)據(jù)?，F(xiàn)在市場(chǎng)上流行的物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等大數(shù)據(jù)平臺(tái)幾乎無(wú)一例外是這類架構(gòu)，這套方法證明完全工作。但這套通用方法效果如何？可以說(shuō)有很多不足，主要表現(xiàn)在幾個(gè)方面。

開(kāi)發(fā)效率低：因?yàn)椴皇菃我卉浖枰芍辽?個(gè)以上模塊，而且很多模塊都不是標(biāo)準(zhǔn)的POSIX或SQL接口，都有自己的開(kāi)發(fā)工具、開(kāi)發(fā)語(yǔ)言、配置等等，需要一定的學(xué)習(xí)成本。而且由于數(shù)據(jù)從一個(gè)模塊流動(dòng)到另外一個(gè)模塊，數(shù)據(jù)一致性容易受到破壞。同時(shí)，這些模塊基本上都是開(kāi)源軟件，總會(huì)有各種BUG，即使有技術(shù)論壇、社區(qū)的支持，一旦被一技術(shù)問(wèn)題卡住，總要耗費(fèi)工程師不少時(shí)間?？偟膩?lái)講，需要搭建一個(gè)還不錯(cuò)的團(tuán)隊(duì)才能將這些模塊順利的組裝起來(lái)，因此需要耗費(fèi)較大的人力資源。
運(yùn)行效率低：現(xiàn)有的這些開(kāi)源軟件主要是用來(lái)處理互聯(lián)網(wǎng)上非結(jié)構(gòu)化的數(shù)據(jù)，但是物聯(lián)網(wǎng)采集的數(shù)據(jù)都是時(shí)序的、結(jié)構(gòu)化的。用非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)來(lái)處理結(jié)構(gòu)化數(shù)據(jù)，無(wú)論是存儲(chǔ)還是計(jì)算，消費(fèi)的資源都大很多。舉個(gè)例子，智能電表采集電流、電壓兩個(gè)量，用HBase或其他KV型數(shù)據(jù)庫(kù)存儲(chǔ)的話，其中的Row Key往往是智能電表的ID，加上其他靜態(tài)標(biāo)簽值。每個(gè)采集量的key由Row Key，Column Family, Column Qualifier, 時(shí)間戳，鍵值類型等組成，然后緊跟具體的采集量的值。這樣存儲(chǔ)數(shù)據(jù)，overhead很大，浪費(fèi)存儲(chǔ)空間。而且如果要做計(jì)算的話，需要將具體采集量先解析出來(lái)。比如計(jì)算一段時(shí)間電壓的平均值，就需要先將電壓值從KV的存儲(chǔ)里解析出來(lái)，放入一個(gè)數(shù)組，然后再進(jìn)行計(jì)算。解析KV結(jié)構(gòu)的overhead很大，導(dǎo)致計(jì)算的效率大幅降低。KV型存儲(chǔ)的最大好處是schemaless, 寫(xiě)數(shù)據(jù)前不用定義數(shù)據(jù)結(jié)構(gòu)，想怎么記錄就可以怎么記錄，這對(duì)于幾乎每天都會(huì)更新的互聯(lián)網(wǎng)應(yīng)用而言，是個(gè)很誘人的設(shè)計(jì)。但是對(duì)于物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等應(yīng)用而言，沒(méi)多少引人之處，因?yàn)槲锫?lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)的schema一般是不變的，即使改變，頻次很低，因?yàn)橄鄳?yīng)的配置或固件需要更新才行。
運(yùn)維成本高：每個(gè)模塊，無(wú)論是Kafka, HBase, HDFS還是Redis，都有自己的管理后臺(tái)，都需要單獨(dú)管理。在傳統(tǒng)的信息系統(tǒng)中，一個(gè)DBA只要學(xué)會(huì)管理MySQL或是Oracle就可以了，但現(xiàn)在一個(gè)DBA需要學(xué)會(huì)管理、配置、優(yōu)化很多模塊，工作量大了很多。而且由于模塊數(shù)過(guò)多，定位一個(gè)問(wèn)題變的更為復(fù)雜。比如用戶發(fā)現(xiàn)有條采集的數(shù)據(jù)丟失，這丟失是Kafka、HBase、Spark，還是應(yīng)用程序丟失？無(wú)法迅速定位，往往需要花很長(zhǎng)時(shí)間，找到方法將各模塊的日志關(guān)聯(lián)起來(lái)才能找到原因。而且模塊越多，系統(tǒng)整體的穩(wěn)定性就越低。
應(yīng)用推出慢、利潤(rùn)低：由于研發(fā)效率低，運(yùn)維成本高，導(dǎo)致產(chǎn)品推向市場(chǎng)的時(shí)間變長(zhǎng)，讓企業(yè)喪失商機(jī)。而且這些開(kāi)源軟件都在演化中，要同步使用最新的版本也需要耗費(fèi)一定的人力。除互聯(lián)網(wǎng)頭部公司外，中小型公司在大數(shù)據(jù)平臺(tái)的人力資源成本一般都遠(yuǎn)超過(guò)專業(yè)公司的產(chǎn)品或服務(wù)費(fèi)用。
對(duì)于小數(shù)據(jù)量場(chǎng)景，私有化部署太重：在物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)場(chǎng)景中，因?yàn)樯婕暗缴a(chǎn)經(jīng)營(yíng)數(shù)據(jù)的安全，很多還是采取私有化部署。而每個(gè)私有化部署，處理的數(shù)據(jù)量有很大的區(qū)別，從幾百臺(tái)聯(lián)網(wǎng)設(shè)備到數(shù)千萬(wàn)臺(tái)設(shè)備不等。對(duì)于數(shù)據(jù)量小的場(chǎng)景，通用的大數(shù)據(jù)解決方案就顯得過(guò)于臃腫，投入產(chǎn)出不成正比。因此有的平臺(tái)提供商往往有兩套方案，一套針對(duì)大數(shù)據(jù)場(chǎng)景，使用通用的大數(shù)據(jù)平臺(tái)，一套針對(duì)小數(shù)據(jù)規(guī)模場(chǎng)景，就使用MySQL或其他DB來(lái)搞定一切。但這樣導(dǎo)致研發(fā)、維護(hù)成本提高。

通用大數(shù)據(jù)平臺(tái)有上述的問(wèn)題，是否有好的辦法解決？那么我們需要針對(duì)物聯(lián)網(wǎng)的場(chǎng)景做細(xì)致的分析。仔細(xì)研究會(huì)發(fā)現(xiàn)，所有機(jī)器、設(shè)備、傳感器產(chǎn)生的數(shù)據(jù)都是時(shí)序的，而且很多還帶有位置信息。這些數(shù)據(jù)具有明顯的特征，1: 數(shù)據(jù)是時(shí)序的，一定帶有時(shí)間戳；2：數(shù)據(jù)是結(jié)構(gòu)化的；3: 數(shù)據(jù)極少有更新或刪除操作；4：數(shù)據(jù)源是唯一的；5：相對(duì)互聯(lián)網(wǎng)應(yīng)用，寫(xiě)多讀少；6：用戶關(guān)注的是一段時(shí)間的趨勢(shì)，而不是某一特定時(shí)間點(diǎn)的值；7: 數(shù)據(jù)是有保留期限的；8：數(shù)據(jù)的查詢分析一定是基于時(shí)間段和地理區(qū)域的；9：除存儲(chǔ)查詢外，還往往需要各種統(tǒng)計(jì)和實(shí)時(shí)計(jì)算操作；10：流量平穩(wěn)，可以預(yù)測(cè)；11：往往需要有插值等一些特殊的計(jì)算；12：數(shù)據(jù)量巨大，一天采集的數(shù)據(jù)就可以超過(guò)100億條。

如果我們充分利用上述特征，完全可以開(kāi)發(fā)出一個(gè)特殊的針對(duì)物聯(lián)網(wǎng)場(chǎng)景進(jìn)行優(yōu)化的大數(shù)據(jù)平臺(tái)。這個(gè)平臺(tái)將具有如下特征，1：充分利用物聯(lián)網(wǎng)的數(shù)據(jù)特點(diǎn)，在技術(shù)上做各種優(yōu)化，大幅度提高數(shù)據(jù)插入、查詢的性能，降低硬件或云服務(wù)成本；2：必須是水平擴(kuò)展的，隨著數(shù)據(jù)量的增加，只需要增加服務(wù)器擴(kuò)容即可；3：必須有單一的管理后臺(tái)，是易于維護(hù)的，盡量做到零管理；4：必須是開(kāi)放的，有業(yè)界流行的標(biāo)準(zhǔn)SQL接口，提供Python、R或其他開(kāi)發(fā)接口，方便集成各種機(jī)器學(xué)習(xí)、人工智能算法或其他應(yīng)用。

濤思數(shù)據(jù)的TDengine Database就是充分利用物聯(lián)網(wǎng)數(shù)據(jù)的12大特點(diǎn)而開(kāi)發(fā)的全棧式的大數(shù)據(jù)處理引擎，具備上面所說(shuō)的幾大特征，有望解決通用大數(shù)據(jù)平臺(tái)在處理物聯(lián)網(wǎng)數(shù)據(jù)時(shí)的不足。按照濤思數(shù)據(jù)的設(shè)計(jì)思路，使用TDengine Database，應(yīng)可以大幅簡(jiǎn)化物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)的架構(gòu)，縮短研發(fā)周期，降低平臺(tái)運(yùn)營(yíng)費(fèi)用。

智能制造

石油化工

電力

大交通

公共事業(yè)

更多行業(yè)實(shí)踐

文檔

博客

資源

活動(dòng)

TDengine TSDB-OSS

知識(shí)庫(kù)

認(rèn)證

開(kāi)發(fā)者論壇

授權(quán)分銷商

云服務(wù)伙伴

技術(shù)生態(tài)解決方案

社區(qū)伙伴

通用大數(shù)據(jù)架構(gòu)為什么不適合處理物聯(lián)網(wǎng)數(shù)據(jù)？

IDMP 視頻教程

事件趨勢(shì)圖使用教程

資產(chǎn)模型功能演示

六月婷婷AV,国产偷窥猎奇福利二区,日韩三级片。,好吊色网站,日韩成人中文在线视频,国产亚洲午夜啪啪,亚洲欧美另类国产精品,国产成人av1,任你艹在线观看

智能制造

石油化工

電力

大交通

公共事業(yè)

更多行業(yè)實(shí)踐

文檔

博客

資源

活動(dòng)

TDengine TSDB-OSS

知識(shí)庫(kù)

認(rèn)證

開(kāi)發(fā)者論壇

授權(quán)分銷商

云服務(wù)伙伴

技術(shù)生態(tài)解決方案

社區(qū)伙伴

通用大數(shù)據(jù)架構(gòu)為什么不適合處理物聯(lián)網(wǎng)數(shù)據(jù)？

IDMP 視頻教程

事件趨勢(shì)圖使用教程

資產(chǎn)模型功能演示