183.17.231.* 2020-07-17 13:13:47 |
大數(shù)據(jù)本質(zhì)上是多個(gè)信息系統(tǒng)產(chǎn)生的數(shù)據(jù)匯聚、融合。他表示,當(dāng)前我國(guó)大數(shù)據(jù)發(fā)展已進(jìn)入到以數(shù)據(jù)深度挖掘、融合應(yīng)用為特征的智能化階段,大數(shù)據(jù)的價(jià)值和意義正在凸顯。
大數(shù)據(jù)平臺(tái)目前存在的問(wèn)題
目前絕大多數(shù)大數(shù)據(jù)平臺(tái)都是基于Hadoop生態(tài),使用Yarn作為核心組件來(lái)進(jìn)行資源管理和調(diào)度。但這樣的平臺(tái)普遍存在如下問(wèn)題:
(1)資源彈性不足,無(wú)法按需自動(dòng)擴(kuò)容。大數(shù)據(jù)系統(tǒng)資源的高峰往往具有明顯的周期性。例如實(shí)時(shí)計(jì)算資源消耗主要在白天。離線分析中,日?qǐng)?bào)型的計(jì)算任務(wù)資源的高峰一般在22:00以后。周報(bào)和月報(bào)型的計(jì)算任務(wù)業(yè)務(wù)高峰往往也是在一個(gè)固定的時(shí)間點(diǎn)。并且離線計(jì)算有時(shí)還有突發(fā)的計(jì)算任務(wù),例如需要對(duì)歷史數(shù)據(jù)做一個(gè)統(tǒng)計(jì)。目前的大數(shù)據(jù)系統(tǒng)普遍缺乏資源的彈性,無(wú)法按需進(jìn)行快速擴(kuò)容,為了應(yīng)對(duì)業(yè)務(wù)高峰和突發(fā)的計(jì)算任務(wù)只能預(yù)留出足夠多的資源來(lái)保證任務(wù)能夠正常響應(yīng)。
(2)資源利用率低。日志留存和流量清單等存儲(chǔ)密集型的業(yè)務(wù)CPU使用率長(zhǎng)期小于30%。而計(jì)算類的業(yè)務(wù)雖然CPU消耗很高,但是存儲(chǔ)的資源使用率小于20%。大量資源閑置。并且考慮在線業(yè)務(wù)往往在低峰期會(huì)有大量的資源閑置。這些資源其實(shí)離線計(jì)算業(yè)務(wù)是完全可以利用的,但目前大數(shù)據(jù)的系統(tǒng)架構(gòu)這部分資源完全沒(méi)有被利用。導(dǎo)致資源利用率進(jìn)一步降低。
(3)資源隔離性差。從Hadoop2.2.0版本開始,Yarn開始使用cgroup實(shí)現(xiàn)了CPU資源隔離,通過(guò)JVM提供的內(nèi)存隔離機(jī)制來(lái)實(shí)現(xiàn)內(nèi)存資源隔離。對(duì)于磁盤IO和網(wǎng)絡(luò)IO的隔離目前社區(qū)還在討論中YARN-2139[2],YARN-2140[3]。對(duì)于文件系統(tǒng)環(huán)境的隔離,社區(qū)在Hadoop 3.0版本中支持通過(guò)Classpath isolation HADOOP-11656[4]來(lái)避免不同版本的jar包沖突,但無(wú)法做到完整的文件系統(tǒng)隔離。整體上看Yarn的資源隔離做的并不完善,這就造成了,多個(gè)任務(wù)運(yùn)行到同一個(gè)工作節(jié)點(diǎn)上時(shí),不同任務(wù)之間會(huì)存在資源搶占的問(wèn)題,不同任務(wù)之間相互影響。
(4)系統(tǒng)管理困難。在大數(shù)據(jù)系統(tǒng)中缺少統(tǒng)一的管理接口,也缺少路由管理,網(wǎng)絡(luò)管理,磁盤管理等能力。這就造成大數(shù)據(jù)平臺(tái)的開發(fā)往往需要對(duì)管理系統(tǒng)進(jìn)行深度定制。開發(fā)工作量大,系統(tǒng)管理困難,并且平臺(tái)遷移困難。例如大數(shù)據(jù)平臺(tái)中需要提供對(duì)大數(shù)據(jù)組件UI頁(yè)面的訪問(wèn)能力。在大數(shù)據(jù)平臺(tái)構(gòu)建中,為了能夠訪問(wèn)組件的UI頁(yè)面往往需要單獨(dú)進(jìn)行網(wǎng)絡(luò)的打通,進(jìn)行額外的路由的配置。并且很多時(shí)候這些配置都缺少標(biāo)準(zhǔn)的接口,無(wú)法做到自動(dòng)化,管理起來(lái)十分困難。
(5)管理方式不統(tǒng)一。在線業(yè)務(wù)和大數(shù)據(jù)業(yè)務(wù)雖然屬于不同的業(yè)務(wù)類型,但就管理平臺(tái)來(lái)說(shuō)提供的功能是類似的。主要提供資源管理,業(yè)務(wù)(任務(wù))管理,權(quán)限管理,可視化展示與操作等方面的功能。但因?yàn)楣芾矸绞讲唤y(tǒng)一,底層框架與運(yùn)行方式不同,造成了在線業(yè)務(wù)和大數(shù)據(jù)業(yè)務(wù)往往需要開發(fā)不同的平臺(tái),由不同的團(tuán)隊(duì)運(yùn)維來(lái)管理,這極大的增加了額外的人力投入,造成不必要的人力損失。
大數(shù)據(jù)平臺(tái)目前存在的問(wèn)題.中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示目前大數(shù)據(jù)平臺(tái)可能處在著很多得問(wèn)題,需要及時(shí)進(jìn)行修改,雖然處在著一些小問(wèn)題,但企業(yè)如果想要更快更好得發(fā)展,那么必須得借助大數(shù)據(jù),大數(shù)據(jù)也會(huì)隨著社會(huì)得進(jìn)步而得到更好得完善。 |