四川中衛(wèi)北斗科技有限公司

在線咨詢(xún)
微信

微信掃一掃

長(zhǎng)按二維碼關(guān)注微信加好友

看懂“大數(shù)據(jù)”,這一篇就夠了!

發(fā)布時(shí)間:2019-08-22 10:57

導(dǎo)讀:大數(shù)據(jù)是一種全新的思維方式和商業(yè)模式。

大家好,我是小棗君。

今天這篇文章,我們來(lái)聊聊大數(shù)據(jù)。

近年來(lái),大數(shù)據(jù)這個(gè)詞的熱度很高,受到公眾的廣泛關(guān)注。

對(duì)于很多人來(lái)說(shuō),當(dāng)他第一次聽(tīng)到“大數(shù)據(jù)”這個(gè)詞,會(huì)自然而然從字面上去理解——認(rèn)為大數(shù)據(jù)就是大量的數(shù)據(jù),大數(shù)據(jù)技術(shù)就是大量數(shù)據(jù)的存儲(chǔ)技術(shù)。

但事實(shí)上,它并不只是一項(xiàng)存儲(chǔ)技術(shù),而是一系列和海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù)。大數(shù)據(jù)系統(tǒng),是一個(gè)龐大的框架系統(tǒng)。

更進(jìn)一步來(lái)說(shuō),大數(shù)據(jù)是一種全新的思維方式和商業(yè)模式。

圖片來(lái)自網(wǎng)絡(luò)

今天這篇文章,就讓我們來(lái)深入了解一下,到底什么是大數(shù)據(jù)。

大數(shù)據(jù)的定義

首先,我們看看大數(shù)據(jù)的定義。

行業(yè)里對(duì)大數(shù)據(jù)的定義有很多,有廣義的定義,也有狹義的定義。

廣義的定義,有點(diǎn)哲學(xué)味道——大數(shù)據(jù),是指物理世界到數(shù)字世界的映射和提煉。通過(guò)發(fā)現(xiàn)其中的數(shù)據(jù)特征,從而做出提升效率的決策行為。

狹義的定義,是技術(shù)工程師給的——大數(shù)據(jù),是通過(guò)獲取、存儲(chǔ)、分析,從大容量數(shù)據(jù)中挖掘價(jià)值的一種全新的技術(shù)架構(gòu)。

相比較而言,狹義定義更好理解一些。

大家注意,關(guān)鍵詞我都在上面原句加粗了:

要做什么?——獲取數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、分析數(shù)據(jù)

對(duì)誰(shuí)做?——大容量數(shù)據(jù)

目的是什么?——挖掘價(jià)值

獲取數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、分析數(shù)據(jù),這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在干這個(gè)事。

例如,每月的月初,考勤管理員會(huì)獲取每個(gè)員工的考勤信息,錄入Excel表格,然后存在電腦里,統(tǒng)計(jì)分析有多少人遲到、缺勤,然后扣TA工資。

但是,同樣的行為,放在大數(shù)據(jù)身上,就行不通了。換言之,傳統(tǒng)個(gè)人電腦,傳統(tǒng)常規(guī)軟件,無(wú)力應(yīng)對(duì)的數(shù)據(jù)級(jí)別,才叫“大數(shù)據(jù)”。

大數(shù)據(jù),到底有多大?

我們傳統(tǒng)的個(gè)人電腦,處理的數(shù)據(jù),是GB/TB級(jí)別。例如,我們的硬盤(pán),現(xiàn)在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的關(guān)系,大家應(yīng)該都很熟悉了:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大數(shù)據(jù)是什么級(jí)別呢?PB/EB級(jí)別。

大部分人都沒(méi)聽(tīng)過(guò)。其實(shí)也就是繼續(xù)乘以1024:

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看這幾個(gè)字母的話,貌似不是很直觀。我來(lái)舉個(gè)例子吧。

1TB,只需要一塊硬盤(pán)可以存儲(chǔ)。容量大約是20萬(wàn)張照片或20萬(wàn)首MP3音樂(lè),或者是20萬(wàn)部電子書(shū)。

普通硬盤(pán)

1PB,需要大約2個(gè)機(jī)柜的存儲(chǔ)設(shè)備。容量大約是2億張照片或2億首MP3音樂(lè)。如果一個(gè)人不停地聽(tīng)這些音樂(lè),可以聽(tīng)1900年。。。

2個(gè)機(jī)柜

1EB,需要大約2000個(gè)機(jī)柜的存儲(chǔ)設(shè)備。如果并排放這些機(jī)柜,可以連綿1.2公里那么長(zhǎng)。如果擺放在機(jī)房里,需要21個(gè)標(biāo)準(zhǔn)籃球場(chǎng)那么大的機(jī)房,才能放得下。

21個(gè)籃球場(chǎng)

阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,數(shù)據(jù)量據(jù)說(shuō)已經(jīng)接近EB級(jí)。

阿里數(shù)據(jù)中心內(nèi)景

EB還不是最大的。目前全人類(lèi)的數(shù)據(jù)量,是ZB級(jí)。

1 ZB = 1024 EB (ZB - zettabyte)

2011年,全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量是1.8ZB。

而到2020年,全球電子設(shè)備存儲(chǔ)的數(shù)據(jù),將達(dá)到35ZB。如果建一個(gè)機(jī)房來(lái)存儲(chǔ)這些數(shù)據(jù),那么,這個(gè)機(jī)房的面積將比42個(gè)鳥(niǎo)巢體育場(chǎng)還大。

數(shù)據(jù)量不僅大,增長(zhǎng)還很快——每年增長(zhǎng)50%。也就是說(shuō),每?jī)赡昃蜁?huì)增長(zhǎng)一倍。

目前的大數(shù)據(jù)應(yīng)用,還沒(méi)有達(dá)到ZB級(jí),主要集中在PB/EB級(jí)別。

大數(shù)據(jù)的級(jí)別定位

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)

數(shù)據(jù)的來(lái)源

數(shù)據(jù)的增長(zhǎng),為什么會(huì)如此之快?

說(shuō)到這里,就要回顧一下人類(lèi)社會(huì)數(shù)據(jù)產(chǎn)生的幾個(gè)重要階段。

大致來(lái)說(shuō),是三個(gè)重要的階段。

第一個(gè)階段,就是計(jì)算機(jī)被發(fā)明之后的階段。尤其是數(shù)據(jù)庫(kù)被發(fā)明之后,使得數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開(kāi)始產(chǎn)生了數(shù)據(jù),從而被記錄在數(shù)據(jù)庫(kù)中。這時(shí)的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主(待會(huì)解釋什么是“結(jié)構(gòu)化數(shù)據(jù)”)。數(shù)據(jù)的產(chǎn)生方式,也是被動(dòng)的。

世界上第一臺(tái)通用計(jì)算機(jī)-ENIAC

第二個(gè)階段,是伴隨著互聯(lián)網(wǎng)2.0時(shí)代出現(xiàn)的?;ヂ?lián)網(wǎng)2.0的最重要標(biāo)志,就是用戶(hù)原創(chuàng)內(nèi)容。隨著互聯(lián)網(wǎng)和移動(dòng)通信設(shè)備的普及,人們開(kāi)始使用博客、facebook、youtube這樣的社交網(wǎng)絡(luò),從而主動(dòng)產(chǎn)生了大量的數(shù)據(jù)。

第三個(gè)階段,是感知式系統(tǒng)階段。隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點(diǎn)開(kāi)始自動(dòng)產(chǎn)生大量的數(shù)據(jù),例如遍布世界各個(gè)角落的傳感器、攝像頭。

經(jīng)過(guò)了“被動(dòng)-主動(dòng)-自動(dòng)”這三個(gè)階段的發(fā)展,最終導(dǎo)致了人類(lèi)數(shù)據(jù)總量的極速膨脹。

大數(shù)據(jù)的4個(gè)V

行業(yè)里對(duì)大數(shù)據(jù)的特點(diǎn),概括為4個(gè)V。

前面所說(shuō)的龐大數(shù)據(jù)體量,就是Volume(海量化)。除了Volume之外,剩下三個(gè),分別是Variety、Velocity、Value。

我們一個(gè)一個(gè)來(lái)介紹。

Variety(多樣化)

數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價(jià)格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁(yè)等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù)。

數(shù)據(jù)又分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

從名字可以看出,結(jié)構(gòu)化數(shù)據(jù),是指可以用預(yù)先定義的數(shù)據(jù)模型表述,或者,可以存入關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)

例如,一個(gè)班級(jí)所有人的年齡、一個(gè)超市所有商品的價(jià)格,這些都是結(jié)構(gòu)化數(shù)據(jù)。

而網(wǎng)頁(yè)文章、郵件內(nèi)容、圖像、音頻、視頻等,都屬于非結(jié)構(gòu)話數(shù)據(jù)。

在互聯(lián)網(wǎng)領(lǐng)域里,非結(jié)構(gòu)化數(shù)據(jù)的占比已經(jīng)超過(guò)整個(gè)數(shù)據(jù)量的80%。

大數(shù)據(jù),就符合這樣的特點(diǎn):數(shù)據(jù)形式多樣化,且非結(jié)構(gòu)化數(shù)據(jù)占比高。

Velocity(時(shí)效性)

大數(shù)據(jù)還有一個(gè)特點(diǎn),那就是時(shí)效性。從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小。數(shù)據(jù)的變化速率,還有處理過(guò)程,越來(lái)越快。例如變化速率,從以前的按天變化,變成現(xiàn)在的按秒甚至毫秒變化。

我們還是用數(shù)字來(lái)說(shuō)話:

就在剛剛過(guò)去的這一分鐘,數(shù)據(jù)世界里發(fā)生了什么?

Email:2.04億封被發(fā)出

Google:200萬(wàn)次搜索請(qǐng)求被提交

Youtube:2880分鐘的視頻被上傳

Facebook:69.5萬(wàn)條狀態(tài)被更新

Twitter:98000條推送被發(fā)出

12306:1840張車(chē)票被賣(mài)出

……

怎么樣?是不是瞬息萬(wàn)變?

Value(價(jià)值密度)

最后一個(gè)特點(diǎn),就是價(jià)值密度。

大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來(lái)的,就是價(jià)值密度很低,數(shù)據(jù)中真正有價(jià)值的,只是其中的很少一部分。

例如通過(guò)監(jiān)控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價(jià)值的,只有幾秒鐘。

2014年美國(guó)波士頓爆炸案,現(xiàn)場(chǎng)調(diào)取了10TB的監(jiān)控?cái)?shù)據(jù)(包括移動(dòng)基站的通訊記錄,附近商店、加油站、報(bào)攤的監(jiān)控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。

大數(shù)據(jù)的價(jià)值

剛才說(shuō)到價(jià)值密度,也就說(shuō)到了大數(shù)據(jù)的核心本質(zhì),那就是價(jià)值。

人類(lèi)提出大數(shù)據(jù)、研究大數(shù)據(jù)的主要目的,就是為了挖掘大數(shù)據(jù)里面的價(jià)值。

大數(shù)據(jù),究竟有什么價(jià)值?

早在1980年,著名未來(lái)學(xué)家阿爾文·托夫勒在他的著作《第三次浪潮》中,就明確提出:“數(shù)據(jù)就是財(cái)富”,并且,將大數(shù)據(jù)稱(chēng)為“第三次浪潮的華彩樂(lè)章”。

第一次浪潮:農(nóng)業(yè)階段,約1萬(wàn)年前開(kāi)始

第二次浪潮:工業(yè)階段,17世紀(jì)末開(kāi)始

第三次浪潮:信息化階段,20世紀(jì)50年代后期開(kāi)始

進(jìn)入21世紀(jì)之后,隨著前面所說(shuō)的第二第三階段的發(fā)展,移動(dòng)互聯(lián)網(wǎng)崛起,存儲(chǔ)能力和云計(jì)算能力飛躍,大數(shù)據(jù)開(kāi)始落地,也引起了越來(lái)越多的重視。

2012年的世界經(jīng)濟(jì)論壇指出:“數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣和黃金一樣”。這無(wú)疑將大數(shù)據(jù)的價(jià)值推到了前所未有的高度層面上。

如今,大數(shù)據(jù)應(yīng)用開(kāi)始走進(jìn)我們的生活,影響我們的衣食住行。

滴滴的大數(shù)據(jù)殺熟,相信大家都有所耳聞

之所以大數(shù)據(jù)會(huì)有這么快的發(fā)展,就是因?yàn)樵絹?lái)越多的行業(yè)和企業(yè),開(kāi)始認(rèn)識(shí)到大數(shù)據(jù)的價(jià)值,開(kāi)始試圖參與挖掘大數(shù)據(jù)的價(jià)值。

歸納來(lái)說(shuō),大數(shù)據(jù)的價(jià)值主要來(lái)自于兩個(gè)方面:

1 幫助企業(yè)了解用戶(hù)

大數(shù)據(jù)通過(guò)相關(guān)性分析,將客戶(hù)和產(chǎn)品、服務(wù)進(jìn)行關(guān)系串聯(lián),對(duì)用戶(hù)的偏好進(jìn)行定位,從而提供更精準(zhǔn)、更有導(dǎo)向性的產(chǎn)品和服務(wù),提升銷(xiāo)售業(yè)績(jī)。

典型的例子就是電商。

像阿里淘寶這樣的電子商務(wù)平臺(tái),積累了大量的用戶(hù)購(gòu)買(mǎi)數(shù)據(jù)。在早期的時(shí)候,這些數(shù)據(jù)都是累贅和負(fù)擔(dān),存儲(chǔ)它們需要大量的硬件成本。但是,現(xiàn)在這些數(shù)據(jù)都是阿里最寶貴的財(cái)富。

通過(guò)這些數(shù)據(jù),可以分析用戶(hù)行為,精準(zhǔn)定位目標(biāo)客群的消費(fèi)特點(diǎn)、品牌偏好、地域分布,從而引導(dǎo)商家的運(yùn)營(yíng)管理、品牌定位、推廣營(yíng)銷(xiāo)等。

大數(shù)據(jù)可以對(duì)業(yè)績(jī)產(chǎn)生直接影響。它的效率和準(zhǔn)確性,遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)的用戶(hù)調(diào)研。

除了電商,包括能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運(yùn)輸、公共事業(yè)等,都是大數(shù)據(jù)的用武之地。

大數(shù)據(jù)甚至能夠幫助競(jìng)選總統(tǒng)

2 幫助企業(yè)了解自己

除了幫助了解用戶(hù)之外,大數(shù)據(jù)還能幫助了解自己。

企業(yè)生產(chǎn)經(jīng)營(yíng)需要大量的資源,大數(shù)據(jù)可以分析和鎖定資源的具體情況,例如儲(chǔ)量分布和需求趨勢(shì)。這些資源的可視化,可以幫助企業(yè)管理者更直觀地了解企業(yè)的運(yùn)作狀態(tài),更快地發(fā)現(xiàn)問(wèn)題,及時(shí)調(diào)整運(yùn)營(yíng)策略,降低經(jīng)營(yíng)風(fēng)險(xiǎn)。

總而言之,“知己知彼,百戰(zhàn)百勝”。大數(shù)據(jù),就是為決策服務(wù)的。

大數(shù)據(jù)和云計(jì)算

說(shuō)到這里,我們要回答一個(gè)很多人心里都存在的疑惑——大數(shù)據(jù)和云計(jì)算之間,到底有什么關(guān)系?

可以這么解釋?zhuān)簲?shù)據(jù)本身是一種資產(chǎn),而云計(jì)算,則是為挖掘資產(chǎn)價(jià)值提供合適的工具。

從技術(shù)上,大數(shù)據(jù)是依賴(lài)于云計(jì)算的。云計(jì)算里面的海量數(shù)據(jù)存儲(chǔ)技術(shù)、海量數(shù)據(jù)管理技術(shù)、分布式計(jì)算模型等,都是大數(shù)據(jù)技術(shù)的基礎(chǔ)。

云計(jì)算就像是挖掘機(jī),大數(shù)據(jù)就是礦山。如果沒(méi)有云計(jì)算,大數(shù)據(jù)的價(jià)值就發(fā)揮不出來(lái)。

相反的,大數(shù)據(jù)的處理需求,也刺激了云計(jì)算相關(guān)技術(shù)的發(fā)展和落地。

也就是說(shuō),如果沒(méi)有大數(shù)據(jù)這座礦山,云計(jì)算這個(gè)挖掘機(jī),很多強(qiáng)悍的功能都發(fā)展不起來(lái)。

套用一句老話——云計(jì)算和大數(shù)據(jù),兩者是相輔相成的。

大數(shù)據(jù)和物聯(lián)網(wǎng)(5G)

第二個(gè)問(wèn)題,大數(shù)據(jù)和物聯(lián)網(wǎng)有什么關(guān)系?

這個(gè)問(wèn)題我覺(jué)得大家應(yīng)該能夠很快想明白,前面其實(shí)也提到了。

物聯(lián)網(wǎng)就是“物與物互相連接的互聯(lián)網(wǎng)”。物聯(lián)網(wǎng)的感知層,產(chǎn)生了海量的數(shù)據(jù),將會(huì)極大地促進(jìn)大數(shù)據(jù)的發(fā)展。

同樣,大數(shù)據(jù)應(yīng)用也發(fā)揮了物聯(lián)網(wǎng)的價(jià)值,反向刺激了物聯(lián)網(wǎng)的使用需求。越來(lái)越多的企業(yè),發(fā)覺(jué)能夠通過(guò)物聯(lián)網(wǎng)大數(shù)據(jù)獲得價(jià)值,就會(huì)愿意投資建設(shè)物聯(lián)網(wǎng)。

其實(shí)這個(gè)問(wèn)題也可以進(jìn)一步延伸為“大數(shù)據(jù)和5G之間的關(guān)系”。

即將到來(lái)的5G,通過(guò)提升連接速率,提升了“人聯(lián)網(wǎng)”的感知,也促進(jìn)了人類(lèi)主動(dòng)創(chuàng)造數(shù)據(jù)。

另一方面,它更多是為“物聯(lián)網(wǎng)”服務(wù)的。包括低延時(shí)、海量終端連接等,都是物聯(lián)網(wǎng)場(chǎng)景的需求。

5G刺激物聯(lián)網(wǎng)的發(fā)展,而物聯(lián)網(wǎng)刺激大數(shù)據(jù)的發(fā)展。所有通信基礎(chǔ)設(shè)施的強(qiáng)大,都是為大數(shù)據(jù)崛起鋪平道路。

大數(shù)據(jù)的產(chǎn)業(yè)鏈

接下來(lái)再說(shuō)說(shuō)大數(shù)據(jù)的產(chǎn)業(yè)鏈。

大數(shù)據(jù)的產(chǎn)業(yè)鏈,和大數(shù)據(jù)的處理流程是緊密相關(guān)的。簡(jiǎn)單來(lái)說(shuō),就是生產(chǎn)數(shù)據(jù)、聚合數(shù)據(jù)、分析數(shù)據(jù)、消費(fèi)數(shù)據(jù)。

每個(gè)環(huán)節(jié),都有相應(yīng)的角色玩家。如下圖:

從目前的情況來(lái)看,國(guó)外廠商在大數(shù)據(jù)產(chǎn)業(yè)占據(jù)了較大的份額,尤其是上游領(lǐng)域,基本上都是國(guó)外企業(yè)。國(guó)內(nèi)IT企業(yè)相比而言,存在較大的差距。

大數(shù)據(jù)相關(guān)重點(diǎn)領(lǐng)域及企業(yè)(技術(shù))

大數(shù)據(jù)的挑戰(zhàn)

說(shuō)了那么多大數(shù)據(jù)的好話,并不代表大數(shù)據(jù)是完美的。

大數(shù)據(jù)也面臨著很多挑戰(zhàn)。

除了數(shù)據(jù)管理技術(shù)難度之外,大數(shù)據(jù)的最大挑戰(zhàn),就是安全。

數(shù)據(jù)是資產(chǎn),也是隱私。沒(méi)有人愿意自己的隱私被暴露,所以,人們對(duì)自己的隱私保護(hù)越來(lái)越重視。政府也在不斷加強(qiáng)對(duì)公民隱私權(quán)的保護(hù),出臺(tái)了很多法律。

歐盟在2018年出臺(tái)了有史以來(lái)最嚴(yán)厲的GDPR(《一般數(shù)據(jù)保護(hù)法案》),把網(wǎng)絡(luò)數(shù)據(jù)保護(hù)上升到前所未有的高度

在這種情況下,企業(yè)獲取用戶(hù)數(shù)據(jù),就需要慎重考慮,是否符合倫理和法律。一旦違法,將付出極為沉重的代價(jià)。

此外,即使企業(yè)合法獲取數(shù)據(jù),也要擔(dān)心是否會(huì)被惡意攻擊和竊取。這里面的風(fēng)險(xiǎn)也是不容忽視的。

除了安全之外,大數(shù)據(jù)還要面臨能耗等方面的問(wèn)題。

換言之,如果不能很好地保護(hù)和利用手里的大數(shù)據(jù),那么它就是一個(gè)燙手的山芋,有還不如沒(méi)有。

好啦,洋洋灑灑寫(xiě)了這么多,相信大家已經(jīng)對(duì)大數(shù)據(jù)有了初步的了解。

后續(xù),小棗君將重點(diǎn)介紹大數(shù)據(jù)的關(guān)鍵框架和技術(shù)棧,包括大家非常關(guān)心的Hadoop、Spark、HDFS、MapReduce等概念,都將一一進(jìn)行解讀。

敬請(qǐng)期待!

掃一掃在手機(jī)上閱讀本文章

版權(quán)所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號(hào)-3    技術(shù)支持: 竹子建站