六月婷婷AV,国产偷窥猎奇福利二区,日韩三级片。,好吊色网站,日韩成人中文在线视频,国产亚洲午夜啪啪,亚洲欧美另类国产精品,国产成人av1,任你艹在线观看

通用大數(shù)據(jù)架構(gòu)為什么不適合處理物聯(lián)網(wǎng)數(shù)據(jù)?

為處理日益增長(zhǎng)的互聯(lián)網(wǎng)數(shù)據(jù),眾多的工具開(kāi)始出現(xiàn),最流行的應(yīng)該是Hadoop體系。除使用大家所熟悉的Hadoop組件如HDFS、MapReduce、HBase和Hive外,通用的大數(shù)據(jù)處理平臺(tái)往往還使用Kafka或其他消息隊(duì)列工具,Redis或其他緩存軟件,F(xiàn)link或其他實(shí)時(shí)流式數(shù)據(jù)處理軟件。存儲(chǔ)上也有人選用MongoDB,Cassandra或其他NoSQL數(shù)據(jù)庫(kù)。這樣一個(gè)典型的大數(shù)據(jù)處理平臺(tái)基本上能很好的處理互聯(lián)網(wǎng)行業(yè)的引用,比如典型的用戶畫(huà)像、輿情分析等等。

很自然,在物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)起來(lái)后,大家都想到的是用通用的大數(shù)據(jù)處理平臺(tái)來(lái)處理它們的數(shù)據(jù)?,F(xiàn)在市場(chǎng)上流行的物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等大數(shù)據(jù)平臺(tái)幾乎無(wú)一例外是這類架構(gòu),這套方法證明完全工作。但這套通用方法效果如何?可以說(shuō)有很多不足,主要表現(xiàn)在幾個(gè)方面。

  • 開(kāi)發(fā)效率低:因?yàn)椴皇菃我卉浖枰芍辽?個(gè)以上模塊,而且很多模塊都不是標(biāo)準(zhǔn)的POSIX或SQL接口,都有自己的開(kāi)發(fā)工具、開(kāi)發(fā)語(yǔ)言、配置等等,需要一定的學(xué)習(xí)成本。而且由于數(shù)據(jù)從一個(gè)模塊流動(dòng)到另外一個(gè)模塊,數(shù)據(jù)一致性容易受到破壞。同時(shí),這些模塊基本上都是開(kāi)源軟件,總會(huì)有各種BUG,即使有技術(shù)論壇、社區(qū)的支持,一旦被一技術(shù)問(wèn)題卡住,總要耗費(fèi)工程師不少時(shí)間??偟膩?lái)講,需要搭建一個(gè)還不錯(cuò)的團(tuán)隊(duì)才能將這些模塊順利的組裝起來(lái),因此需要耗費(fèi)較大的人力資源。
  • 運(yùn)行效率低:現(xiàn)有的這些開(kāi)源軟件主要是用來(lái)處理互聯(lián)網(wǎng)上非結(jié)構(gòu)化的數(shù)據(jù),但是物聯(lián)網(wǎng)采集的數(shù)據(jù)都是時(shí)序的、結(jié)構(gòu)化的。用非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)來(lái)處理結(jié)構(gòu)化數(shù)據(jù),無(wú)論是存儲(chǔ)還是計(jì)算,消費(fèi)的資源都大很多。舉個(gè)例子,智能電表采集電流、電壓兩個(gè)量,用HBase或其他KV型數(shù)據(jù)庫(kù)存儲(chǔ)的話,其中的Row Key往往是智能電表的ID,加上其他靜態(tài)標(biāo)簽值。每個(gè)采集量的key由Row Key,Column Family, Column Qualifier, 時(shí)間戳,鍵值類型等組成,然后緊跟具體的采集量的值。這樣存儲(chǔ)數(shù)據(jù),overhead很大,浪費(fèi)存儲(chǔ)空間。而且如果要做計(jì)算的話,需要將具體采集量先解析出來(lái)。比如計(jì)算一段時(shí)間電壓的平均值,就需要先將電壓值從KV的存儲(chǔ)里解析出來(lái),放入一個(gè)數(shù)組,然后再進(jìn)行計(jì)算。解析KV結(jié)構(gòu)的overhead很大,導(dǎo)致計(jì)算的效率大幅降低。KV型存儲(chǔ)的最大好處是schemaless, 寫(xiě)數(shù)據(jù)前不用定義數(shù)據(jù)結(jié)構(gòu),想怎么記錄就可以怎么記錄,這對(duì)于幾乎每天都會(huì)更新的互聯(lián)網(wǎng)應(yīng)用而言,是個(gè)很誘人的設(shè)計(jì)。但是對(duì)于物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等應(yīng)用而言,沒(méi)多少引人之處,因?yàn)槲锫?lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)的schema一般是不變的,即使改變,頻次很低,因?yàn)橄鄳?yīng)的配置或固件需要更新才行。
  • 運(yùn)維成本高:每個(gè)模塊,無(wú)論是Kafka, HBase, HDFS還是Redis,都有自己的管理后臺(tái),都需要單獨(dú)管理。在傳統(tǒng)的信息系統(tǒng)中,一個(gè)DBA只要學(xué)會(huì)管理MySQL或是Oracle就可以了,但現(xiàn)在一個(gè)DBA需要學(xué)會(huì)管理、配置、優(yōu)化很多模塊,工作量大了很多。而且由于模塊數(shù)過(guò)多,定位一個(gè)問(wèn)題變的更為復(fù)雜。比如用戶發(fā)現(xiàn)有條采集的數(shù)據(jù)丟失,這丟失是Kafka、HBase、Spark,還是應(yīng)用程序丟失?無(wú)法迅速定位,往往需要花很長(zhǎng)時(shí)間,找到方法將各模塊的日志關(guān)聯(lián)起來(lái)才能找到原因。而且模塊越多,系統(tǒng)整體的穩(wěn)定性就越低。
  • 應(yīng)用推出慢、利潤(rùn)低:由于研發(fā)效率低,運(yùn)維成本高,導(dǎo)致產(chǎn)品推向市場(chǎng)的時(shí)間變長(zhǎng),讓企業(yè)喪失商機(jī)。而且這些開(kāi)源軟件都在演化中,要同步使用最新的版本也需要耗費(fèi)一定的人力。除互聯(lián)網(wǎng)頭部公司外,中小型公司在大數(shù)據(jù)平臺(tái)的人力資源成本一般都遠(yuǎn)超過(guò)專業(yè)公司的產(chǎn)品或服務(wù)費(fèi)用。
  • 對(duì)于小數(shù)據(jù)量場(chǎng)景,私有化部署太重:在物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)場(chǎng)景中,因?yàn)樯婕暗缴a(chǎn)經(jīng)營(yíng)數(shù)據(jù)的安全,很多還是采取私有化部署。而每個(gè)私有化部署,處理的數(shù)據(jù)量有很大的區(qū)別,從幾百臺(tái)聯(lián)網(wǎng)設(shè)備到數(shù)千萬(wàn)臺(tái)設(shè)備不等。對(duì)于數(shù)據(jù)量小的場(chǎng)景,通用的大數(shù)據(jù)解決方案就顯得過(guò)于臃腫,投入產(chǎn)出不成正比。因此有的平臺(tái)提供商往往有兩套方案,一套針對(duì)大數(shù)據(jù)場(chǎng)景,使用通用的大數(shù)據(jù)平臺(tái),一套針對(duì)小數(shù)據(jù)規(guī)模場(chǎng)景,就使用MySQL或其他DB來(lái)搞定一切。但這樣導(dǎo)致研發(fā)、維護(hù)成本提高。

通用大數(shù)據(jù)平臺(tái)有上述的問(wèn)題,是否有好的辦法解決?那么我們需要針對(duì)物聯(lián)網(wǎng)的場(chǎng)景做細(xì)致的分析。仔細(xì)研究會(huì)發(fā)現(xiàn),所有機(jī)器、設(shè)備、傳感器產(chǎn)生的數(shù)據(jù)都是時(shí)序的,而且很多還帶有位置信息。這些數(shù)據(jù)具有明顯的特征,1: 數(shù)據(jù)是時(shí)序的,一定帶有時(shí)間戳;2:數(shù)據(jù)是結(jié)構(gòu)化的;3: 數(shù)據(jù)極少有更新或刪除操作;4:數(shù)據(jù)源是唯一的;5:相對(duì)互聯(lián)網(wǎng)應(yīng)用,寫(xiě)多讀少;6:用戶關(guān)注的是一段時(shí)間的趨勢(shì),而不是某一特定時(shí)間點(diǎn)的值;7: 數(shù)據(jù)是有保留期限的;8:數(shù)據(jù)的查詢分析一定是基于時(shí)間段和地理區(qū)域的;9:除存儲(chǔ)查詢外,還往往需要各種統(tǒng)計(jì)和實(shí)時(shí)計(jì)算操作;10:流量平穩(wěn),可以預(yù)測(cè);11:往往需要有插值等一些特殊的計(jì)算;12:數(shù)據(jù)量巨大,一天采集的數(shù)據(jù)就可以超過(guò)100億條。

如果我們充分利用上述特征,完全可以開(kāi)發(fā)出一個(gè)特殊的針對(duì)物聯(lián)網(wǎng)場(chǎng)景進(jìn)行優(yōu)化的大數(shù)據(jù)平臺(tái)。這個(gè)平臺(tái)將具有如下特征,1:充分利用物聯(lián)網(wǎng)的數(shù)據(jù)特點(diǎn),在技術(shù)上做各種優(yōu)化,大幅度提高數(shù)據(jù)插入、查詢的性能,降低硬件或云服務(wù)成本;2:必須是水平擴(kuò)展的,隨著數(shù)據(jù)量的增加,只需要增加服務(wù)器擴(kuò)容即可;3:必須有單一的管理后臺(tái),是易于維護(hù)的,盡量做到零管理;4:必須是開(kāi)放的,有業(yè)界流行的標(biāo)準(zhǔn)SQL接口,提供Python、R或其他開(kāi)發(fā)接口,方便集成各種機(jī)器學(xué)習(xí)、人工智能算法或其他應(yīng)用。

濤思數(shù)據(jù)的TDengine Database就是充分利用物聯(lián)網(wǎng)數(shù)據(jù)的12大特點(diǎn)而開(kāi)發(fā)的全棧式的大數(shù)據(jù)處理引擎,具備上面所說(shuō)的幾大特征,有望解決通用大數(shù)據(jù)平臺(tái)在處理物聯(lián)網(wǎng)數(shù)據(jù)時(shí)的不足。按照濤思數(shù)據(jù)的設(shè)計(jì)思路,使用TDengine Database,應(yīng)可以大幅簡(jiǎn)化物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)的架構(gòu),縮短研發(fā)周期,降低平臺(tái)運(yùn)營(yíng)費(fèi)用。