這篇文章主要是釐清三個易混淆的觀念:樣本、母體與大數據。了解
統計學的人對於樣本與母體這兩種概念一定不陌生,母體是研究標的全體,而樣本則是母體的一小部分。如果樣本的特質可以代表母體特質,此時樣本就具有代表
性,有人稱之為「代表性樣本」。然而,當加上近年來流行的「大數據」概念以後,一切就開始變得複雜起來:究竟大數據可以代表母體嗎?抑或它只是樣本的另一
個別稱而已?
事實上,大數據又可稱為「巨量資料」,從它的名稱就可以推知當資料量多到某個程度的時候,就可以用「大數據」稱之。一般而言,當數據多到非一台電腦能夠單獨處理,而需數台電腦共同處理的資料量,就是大數據。
所以大數據跟母體及樣本之間其實並沒有什麼直接關係,母體與樣本是資料的特性,而大數據則專指資料量。當資料量多到一定程度的時候,樣本就可以適切地反映母體的特性,這也就是為什麼《大數據》這本書會說,在巨量資料當道的時代裡,樣本等於母體的原因。
事實上,大數據又可稱為「巨量資料」,從它的名稱就可以推知當資料量多到某個程度的時候,就可以用「大數據」稱之。一般而言,當數據多到非一台電腦能夠單獨處理,而需數台電腦共同處理的資料量,就是大數據。
所以大數據跟母體及樣本之間其實並沒有什麼直接關係,母體與樣本是資料的特性,而大數據則專指資料量。當資料量多到一定程度的時候,樣本就可以適切地反映母體的特性,這也就是為什麼《大數據》這本書會說,在巨量資料當道的時代裡,樣本等於母體的原因。
沒有留言:
張貼留言