什么是大數據?
大數據就是利用一些技術手段來處理海量數據并實現其價值。首先是海量數據,如果沒有數據支撐,大數據就只是空談。其次是技術手段,用來離線或者實時處理數據,其中的Hadoop你一定有所耳聞。目前,大數據應用比較廣泛的行業有:電商、運營商、金融、醫療等。
為什么需要大數據?
這里就拿電商舉例。是否你曾經思考過,為什么每次你瀏覽過的商品,就會出現在首頁推薦或者其他APP的廣告中。其實這就是大數據的應用之一。
你在APP上瀏覽商品,后臺會收集你的商品瀏覽數據,其中包括用戶賬號、商品類別等字段。此刻,如果你是技術人員,你會如何將瀏覽數據存放起來?在傳統開發思維中很多人會選擇:MySQL。
但是一天幾百、幾千億的商品瀏覽數據,主機需要多大的磁盤才能完成數據留存?MySQL能處理這么多數據嗎?如何實時高效分析出用戶的瀏覽偏好?這需要開發者思考技術選型。
而大數據的出現,就解決了這些問題。
大數據難學么?
大數據其實是不難學的,只是要求技術層面比較廣,涉及編程、網絡、主機等方面知識,需要多方面知識的沉淀。大數據的深入學習需要在理論的基礎上加以實踐。在學習技術框架的時候,最好動手在阿里云或者虛擬機上搭建集群,一方面可以提高Linux的使用能力和了解集群的運行原理,另一方面可以在集群上進行操作練習。
其次,大數據技術在生產和測試環境中其實是不一樣的。生產環境會有實際的業務場景和各種各樣的問題,所以有機會接觸到大數據生產環境的話,學習效率會事半功倍。