分析論文:云計(jì)算環(huán)境下大數(shù)據(jù)
1大數(shù)據(jù)處理流程
基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個(gè)階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因?yàn)樵跀?shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結(jié)構(gòu),需要使用某種方法將其進(jìn)行預(yù)處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預(yù)處理過的數(shù)據(jù)進(jìn)行算法特定的分析,并將分析的結(jié)果用可視化等手段呈現(xiàn)至用戶端。
1.1數(shù)據(jù)采集
大數(shù)據(jù)的采集是整個(gè)流程的基礎(chǔ),隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展以及各種終端設(shè)備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來越大,數(shù)據(jù)的產(chǎn)量也越來越多,數(shù)據(jù)之間的關(guān)聯(lián)也越來越復(fù)雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。
1.2數(shù)據(jù)處理與集成
數(shù)據(jù)的處理與集成主要是對前一步采集到的大量數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,包括格式化、去噪以及進(jìn)一步集成存儲(chǔ)。因?yàn)閿?shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結(jié)構(gòu)也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會(huì)影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會(huì)設(shè)計(jì)一些過濾器來完成這一任務(wù)。
1.3數(shù)據(jù)分析
在完成了數(shù)據(jù)的采集和處理后,需要對數(shù)據(jù)進(jìn)行分析,因?yàn)樵谶M(jìn)行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價(jià)值。數(shù)據(jù)分析的對象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應(yīng)用需求和價(jià)值體現(xiàn)方向?qū)@些原始樣本數(shù)據(jù)進(jìn)一步地處理和分析,F(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對集中存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)分析服務(wù)與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對象不是數(shù)據(jù),而是數(shù)據(jù)服務(wù)。
1.4數(shù)據(jù)解釋
數(shù)據(jù)解釋是對大數(shù)據(jù)分析結(jié)果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結(jié)果的解釋步驟是大數(shù)據(jù)分析的`用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結(jié)果也更復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會(huì)引入“數(shù)據(jù)可視化技術(shù)”作為數(shù)據(jù)解釋方式。通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果。
2云計(jì)算與大數(shù)據(jù)分析的關(guān)系
云計(jì)算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源,是一種按使用量付費(fèi)的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。目前,國內(nèi)外已經(jīng)有不少成熟的云計(jì)算的應(yīng)用服務(wù)。數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價(jià)值分析為目的的活動(dòng),而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢來看,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),是大數(shù)據(jù)分析的支撐平臺(tái),不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺(tái)承載。所以,云計(jì)算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結(jié)果更加精確。另一方面,云計(jì)算的出現(xiàn)為大數(shù)據(jù)分析提供了擴(kuò)展性更強(qiáng),使用成本更低的存儲(chǔ)資源和計(jì)算資源,使得中小企業(yè)也可以通過云計(jì)算來實(shí)現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術(shù)本身也是云計(jì)算技術(shù)的一種延伸。大數(shù)據(jù)技術(shù)涵蓋了從數(shù)據(jù)的海量存儲(chǔ)、處理到應(yīng)用多方面的技術(shù),包括海量分布式文件系統(tǒng)、并行計(jì)算框架、數(shù)據(jù)庫、實(shí)時(shí)流數(shù)據(jù)處理以及智能分析技術(shù),如模式識別、自然語言理解、應(yīng)用知識庫等等。但是,大數(shù)據(jù)分析要走向云計(jì)算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設(shè),需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴(kuò)展。
3基于云計(jì)算環(huán)境的Hadoop
為了給大數(shù)據(jù)處理分析提供一個(gè)性能更高、可靠性更好的平臺(tái),研究者基于MapReduce開發(fā)了一個(gè)基于云計(jì)算環(huán)境的開源平臺(tái)Hadoop。Hadoop是一個(gè)以MapReduce算法為分布式計(jì)算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當(dāng)前最流行的大數(shù)據(jù)處理平臺(tái),并被廣泛認(rèn)可和開發(fā)應(yīng)用;贖adoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運(yùn)行于由成百上千個(gè)節(jié)點(diǎn)組成的大規(guī)模計(jì)算機(jī)集群上。
4實(shí)例分析
本節(jié)以電信運(yùn)營商為例,說明在云計(jì)算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價(jià)值。當(dāng)前傳統(tǒng)語音和短信業(yè)務(wù)量下滑,智能終端快速增長,移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數(shù)據(jù)分析可以為運(yùn)營商帶來新的機(jī)會(huì),幫助運(yùn)營商更好地轉(zhuǎn)型。本文數(shù)據(jù)分析樣本來自于某運(yùn)營商的個(gè)人語音和數(shù)據(jù)業(yè)務(wù)清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個(gè)大數(shù)據(jù)分析平臺(tái)來處理獲得的樣本。希望通過對樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實(shí)際上樣本數(shù)據(jù)中所蘊(yùn)含的價(jià)值要遠(yuǎn)遠(yuǎn)大于本文體現(xiàn)的。以上舉例意在說明基于云計(jì)算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結(jié)束語
基于云計(jì)算的大數(shù)據(jù)分析已經(jīng)成為解決大數(shù)據(jù)問題的主要手段,云計(jì)算環(huán)境中的大數(shù)據(jù)分析平臺(tái)部署需要綜合考慮硬件、網(wǎng)絡(luò)、軟件等各方面的集成,使大數(shù)據(jù)的海量信息積累體現(xiàn)價(jià)值,顯示云計(jì)算的性能優(yōu)勢,而沒有云計(jì)算技術(shù)的支撐也不能進(jìn)行高效和準(zhǔn)確的大數(shù)據(jù)處理分析。最后本文通過一個(gè)例子來分析了基于云計(jì)算的大數(shù)據(jù)分析給企業(yè)帶來的價(jià)值,由此可見,大數(shù)據(jù)需要云計(jì)算技術(shù)的深入挖掘,同時(shí)也促進(jìn)了云計(jì)算技術(shù)的不斷發(fā)展。
【分析論文:云計(jì)算環(huán)境下大數(shù)據(jù)】相關(guān)文章:
云計(jì)算環(huán)境下的數(shù)據(jù)挖掘研究論文04-14
大數(shù)據(jù)環(huán)境下云會(huì)計(jì)的論文06-10
云計(jì)算環(huán)境數(shù)據(jù)安全研究論文04-16
云計(jì)算環(huán)境下大規(guī)模數(shù)據(jù)處理技術(shù)研究論文04-17
研究基于云計(jì)算角度下的數(shù)據(jù)存儲(chǔ)安全技術(shù)論文04-17
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全研究論文04-14
云計(jì)算環(huán)境下的網(wǎng)絡(luò)技術(shù)及其發(fā)展論文02-13
云計(jì)算環(huán)境下的分布存儲(chǔ)技術(shù)研究論文04-16
大數(shù)據(jù)時(shí)代基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)研究論文04-15