發布日期:2022-10-09 點擊率:48
目前的深度學習主要是建立在大數據的基礎上,即對大數據進行訓練,并從中歸納出可以被計算機運用在類似數據上的知識或規律。那么,到底什么是大數據呢?
人們經常籠統地說,大數據就是大規模的數據。
這個說法并不準確。“大規模”只是指數據的量而言。數據量大,并不代表著數據一定有可以被深度學習算法利用的價值。例如,地球繞太陽運轉的過程中,每一秒鐘記錄一次地球相對太陽的運動速度、位置,可以得到大量數據。可如果只有這樣的數據,其實并沒有太多可以挖掘的價值,因為地球圍繞太陽運轉的物理規律,人們已經研究得比較清楚了。
那么,大數據到底是什么?大數據是如何產生的?什么樣的數據才最有價值,最適合作為計算機的學習對象呢?
根據馬丁·希爾伯特的總結,今天我們常說的大數據其實是在2000年后,因為信息交換、信息存儲、信息處理三個方面能力的大幅增長而產生的數據:
信息交換:據估算,從1986年到2007年這20年間,地球上每天可以通過既有信息通道交換的信息數量增長了約217倍,這些信息的數字化程度,則從1986年的約20%增長到2007年的約99.9%。在數字化信息爆炸式增長的過程里,每個參與信息交換的節點都可以在短時間內接收并存儲大量數據。
信息存儲:全球信息存儲能力大約每3年翻一番。從1986年到2007年這20年間,全球信息存儲能力增加了約120倍,所存儲信息的數字化程度也從1986年的約1%增長到2007年的約94%。1986年時,即便用上我們所有的信息載體、存儲手段,我們也不過能存儲全世界所交換信息的大約1%,而2007年這個數字已經增長到大約16%。信息存儲能力的增加為我們利用大數據提供了近乎無限的想象空間。
信息處理:有了海量的信息獲取能力和信息存儲能力,我們也必須有對這些信息進行整理、加工和分析的能力。谷歌、Facebook等公司在數據量逐漸增大的同時,也相應建立了靈活、強大的分布式數據處理集群。
下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV