如果提到“大數(shù)據(jù)”,你會想到什么?也許大部分人會聯(lián)想到有多少人使用運動APP進行鍛煉?女生喜歡什么樣的口紅?中國網(wǎng)民有多少人?……
可以說,過去數(shù)據(jù)被認為是冰冷的數(shù)字,只要求提供一些事實數(shù)據(jù),而如今大數(shù)據(jù)的深度和廣度遠不止這些,大數(shù)據(jù)已經(jīng)在人類社會實踐中發(fā)揮著巨大的優(yōu)勢,其利用價值也超出我們的想象。
但大數(shù)據(jù)的本質(zhì)還是數(shù)據(jù),只不過在處理量、速度要求、處理效率等方面,傳統(tǒng)工具無法滿足,那么就需要用大數(shù)據(jù)的一系列工具來解決。
華永道移動數(shù)據(jù)和分析計劃首席技術(shù)官Ritesh Ramesh說:“數(shù)據(jù)學(xué)習(xí)工具是客戶進行數(shù)據(jù)質(zhì)量和性能分析的工具包中的重要工具,可處理5000萬行數(shù)據(jù),以發(fā)現(xiàn)洞察力”。現(xiàn)如今頂級的大數(shù)據(jù)工具包括:Cloudera、MongoDB、OpenRefine、DataCleaner、RapidMiner、Tableau等。
通過這些工具,使得大數(shù)據(jù)更能廣泛地應(yīng)用于各個場景,比如說:了解和優(yōu)化業(yè)務(wù)流程、微博等社交網(wǎng)絡(luò)的數(shù)據(jù)分析運用、電子商務(wù)中的數(shù)據(jù)分析推薦、搜索引擎中的數(shù)據(jù)分析處理等等。大數(shù)據(jù)應(yīng)用為何如此廣泛?我們再看看以下4個技術(shù)特征就知道原因了!
大數(shù)據(jù)的技術(shù)特征我們可以用4個“V”來表示。
首先第一個“V”(Volume)是指數(shù)據(jù)體量巨大,從TB級到PB級。對于傳統(tǒng)企業(yè)來講,不一定能達到PB級別。但面向終端用戶的一般互聯(lián)網(wǎng)行業(yè)公司是可能達到PB級別的,倘若數(shù)據(jù)體量達到十幾TB甚至幾十TB時,還是需要大數(shù)據(jù)技術(shù)進行處理。
第二個“V”(Velocity)是指速度,這里指數(shù)據(jù)的產(chǎn)生速度快,處理速度快。在實時計算、流計算的場景下,我們要求大數(shù)據(jù)本身對于數(shù)據(jù)的處理速度要快,因為從傳感器,或者是用戶在前端的一些點擊行為,這些操作都會在短時間內(nèi)產(chǎn)生大量數(shù)據(jù)。因此就要求大數(shù)據(jù)系統(tǒng)、大數(shù)據(jù)工具對數(shù)據(jù)的處理速度要能跟上其產(chǎn)生的速度。
第三個“V”(Variety)是指數(shù)據(jù)類型,數(shù)據(jù)類型在大數(shù)據(jù)的場景下是繁多的,所處理的數(shù)據(jù)一般都是半結(jié)構(gòu)化,甚至是非結(jié)構(gòu)化的。比如日志、視頻、圖片、地理位置信息等,就要求大數(shù)據(jù)的一些處理系統(tǒng)、處理技術(shù)能夠?qū)Π虢Y(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行相應(yīng)的處理。
第四個“V”(Value)是指價值,高價值總量,低價值密度。也就是說,在大數(shù)據(jù)的場景下,若能對大數(shù)據(jù)進行全量分析,那么其價值總量是巨大的。當(dāng)然大數(shù)據(jù)本身是要求對數(shù)據(jù)做全量分析,因此如果只是對其中一部分數(shù)據(jù)做分析的話,那么其價值密度相對來講是較低的。
針對大數(shù)據(jù)以上四個特征,我們對大數(shù)據(jù)的思維有所了解后,對于是否適合建造項目也就有了明確的判斷。
那么,有人會問:建設(shè)大數(shù)據(jù)項目的必備條件是什么呢?請聽下回分解。
——未完待續(xù)——