巨量資料所指的,是資料量一定要達到相當規模才能做的事(例如得到新觀點、創造新價值),沒有一定規模就無法實現,而且這些事將會改變現有市場、組織、市民與政府間的關係。
巨量資料的核心重點在於「預測」。……能有大量資料作為預測的基礎,此外,這些系統也必須能夠隨著時間自動改進,從新增的資料中,判斷出最佳的信號和模式。
一、巨量資料
1. 巨量資料 VS 小量資料
|
資料量 |
樣本 |
研究方法 |
抽樣誤差 |
測量對象 |
測量誤差容忍度 |
資料品質要求 |
重點 |
目的 |
小量資料 |
少 |
樣本<<母體 |
抽樣 |
高 |
少 |
低 |
高 |
因果 |
驗證少量假設 |
巨量資料 |
多 |
樣本~=母體 |
全數據 |
低 |
多 |
高 |
低 |
相關 |
從現象發現規律 |
2. 巨量資料帶來的思維轉變
- 要有針對特定主題分析龐大資料整體的能力,而不是退而求其次、分析較小的資料集。
- 願意接受真實資料會雜亂不清的事實,而不是一味追求精確。
- 更看重相關性,而不是追求難以捉摸的因果關係。
二、樣本 = 母體
1. 統計應蒐集資料的困難而生
資料收集成本高→不易蒐集齊全母體資料→以「隨機抽樣+統計推論」估計母體
2. 抽樣+推論的缺點
- 「隨機」也同樣難以辦到,所以抽樣誤差難以避免→降低測量誤差容忍度
- 隨機抽樣結果僅能應用於單一尺度的母體,若要研究母體內的子群,除了重新抽樣外,就只能取原先樣本中屬於子群的樣本作統計推論,但樣本數就減少了,推論的效力也跟著下降。→由於抽樣針對特定假設和範圍蒐集,只能完成最初蒐集的目的,難以重複利用,繼續擴展延伸,以全新觀點分析。
- 抽樣調查在宏觀層面效果良好,但抽樣和統計推論的誤差可能掩蓋微觀層面的變化。
3. 「樣本=母體」帶來的改變
- 若樣本數幾乎相等於母體,就不必推論母體性質,得以直接觀察母體。
- 巨量資料=應用「所有資料」=應用包含母體的完整資料=「不用」抽樣調查的研究=相對的概念(!=大量資料)
- 儘管蒐集資料時不清楚能觀察到什麼訊息,但是已經捕捉了整個母體,所以巨量資料在資料收集後有更多探索自由,即「重複使用」
- 不僅可以重複使用,還能依照需求鎖定研究細部或全局
三、降低資料品質要求
1. 雜亂有很多種來源,但能隨時間改善
- 隨測量次數提升的錯誤
- 資料格式不一
- 混雜不同資訊的資料
- 這些混雜不是巨量資料本身的問題,而是測量手段的問題,隨科技進步這些不經卻可能逐漸下降,然而在那之前我們仍得面對許多雜亂的現實。
2. 然而雜亂是資料的本質,技術提升的改善程度有限
世界本來就喧囂混亂,井然有序的分類系統是人為的
3. 資料數量比品質更重要
由於雜亂是資料的本質,要求資料的精確就意味著放棄資料的數量,會導致以下狀況
- 收集和分析資料的時間拉長,針對迫切問題緩不濟急
- 少量資料可能無法觀察到全局變化
- 以精確為假設處理實為雜亂的資料,有失公允
反之,使用巨量資料時,會有以下優勢
- 不限制資料收集數量,不放過任何可能有意義的資訊(抽樣→完整)
- 放寬資料的品質,接受混亂和不確定性(精確→可能)
- 以數量優勢抵銷品質落差,以看出大趨勢
四、相關性的價值
1. 假設主導的因果研究有偏見且費時
- 無論是事物間有無因果關係,人類先天傾向於湊合現象,於是在未經充分思索的情況下形成了對於因果的偏見。
- 過往的因果分析是以抽象理論為參考,在形成假說和檢驗假說的循環中試誤,提出假說的依據是研究者的偏見,未必是事物的本質。
- 統計無法決定因果,因果有賴操作實驗,然而實驗昂貴又費時。
- 實驗不像是數學原理有明確的因果關係,只能說具有因果關係的可能相當高。
- 因此在巨量資料的時代,因果關係不應視為研究的圭臬。
2. 相關性在應用方面已經很足夠了,也有助於尋找因果關係
- 很多時候,我們只需要知道「會怎麼樣」而不需要知道「為什麼會這樣」,例如診斷疾病只要知道那些特徵是疾病的生物標記,至於其生理機制不太需要理解。
- 在應用層次中,追求因果意味著費時和費工,利用相關性可以省時省力達成目標。
- 先以相關性呈現事物的全貌可以讓研究結果減少偏見,因為假設主導的因果推論是依據研究者個人的評估,可能會漏掉一些影響現象的要素。雖然透過巨量資料得出的相關性可能匪夷所思,但能提示研究者可能有那些潛在變數。
- 相關性能作為篩選進一步確認因果的依據。
3. 然而相關不意味著因果
- 儘管相關性能帶來洞見,並有應用價值,但是任意帶入因果關係會誤導這些觀點。例如觀察到紅色汽車的車主,車禍死亡率較低,可以用於保險業者評估保費,但是對於個人而言,將車子塗紅可能沒什麼幫助。
- 要習於應用資料,只要知道「現象」,不要汲汲營營於「原因」,因為原因可能藏在更深、更複雜的交互作用當中,先取得全局觀才是初期的重點。
五、資料化(datafication) 與資料的價值
1. 資料化
#定量 #標準化 #挖掘價值
#culturomics
#Marc Chagall 的作品於納粹掌權期間被打壓,因此能看出歷史文本中關於他的討論在納粹時期比較稀少,這成了打壓他的標記
#diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures
#Matthew Foutaine Maury 海洋導航之父
2. 資料的特性
- 資料具有潛在價值,跟勞力、資本、土地一樣是重要的生產要素。
- 資料屬於非競爭性商品,可以重複利用。
- 資料仍有時效性,須一再更新淘汰
3. 資料具有選項價值(option value)
所做選項產生的價值之總和。釋放選項價值的方式有三種
- 充分重複使用資料
- 組合不同資料觀察新關係
- 讓一筆資料能應用於多種分析
#data exhaust #ReCaptcha #Luis von Ahn
六、數據科學帶來的影響
1. 資料價值鏈及資料的中介機構崛起
價值 |
定義 |
優勢階段 |
缺陷 |
|
資料持有人 |
資料 |
擁有資料或能夠存取資料,但不一定以資料本身為業務,也未必有能力分析資料或發揮創意善用資料 |
技術與思維普及後,坐擁資源的後期優勢 |
擁有資料者未必有分析資料的動機或礙於其他社會法律因素無法分析 |
資料分析者 |
技術 |
擁有實際操作技能,但本身可能沒有資料也想不出創新用途 |
初期的先發優勢 |
並非仰賴新潮的想法,而是中規中矩的分析,此外最終收益得歸於資料擁有者 |
數據思維開拓者 |
思維 |
不持有資料,技術也非主軸,重點在於發覺資料的新價值 |
初期的先發優勢 |
先發優勢後,若沒有開拓新方法或是獲得資料所有就可能被其他競爭者擊敗 |
2. 中間型企業衰退
- 大型企業:規模大、儲存空間和運算能力強、資料來源多、蒐集資料成本低、
- 小型企業:「沒有拖累的規模(scale without mass)」
- 中型企業:中型企業在以往的成功原因是取得規模經濟的最小規模,又有大型企業沒有的靈活度。但在巨量資料的世界,只有零和一,模玲兩可只有死。
七、風險與管控
1. 巨量資料時代的潛在風險
- 難以保障個人隱私
- 去識別化資料仍可能交叉比對出資料所有人
- 資料獨裁
- 忽略數據以外的資訊
- 錯誤依賴因果性
- 功利性判斷而非正義性判斷
2. 將個資保護由「個人同意制」,轉成資料使用者的「使用責任制」
|
責任歸屬 |
刪除資料 |
時限 |
隱私方式 |
方式 |
個人同意制 |
資料提供人 |
用完即刪 |
無 |
|
|
使用責任制 |
資料使用人 |
用完保留(可以重複利用) |
有,依據風險及社會觀感訂立資料保存期限 |
差分隱私(differential
privacy),資料模糊化,讓資料無法追溯到個人 |
立法訂立資料的不同用途類別,立下不同等級的保護措施,使用者若違法須追究責任。
|
3. 尊重個人的意志,不濫用巨量資料預測的結果,預判個人
- 儘管透過巨量資料可以預測個人的行為和特性,但判斷一個人的性格優劣、犯罪或無辜得依賴實際行為,而不是預測結果
- 不要落入風險控管的誘惑,儘管政府能利用巨量資料演算法評估個人往後造成的危害,提前採取措施防範。然而這種作法看輕個人的責任,否定了個人有選擇行為的基本自由。
- 依賴巨量資料的預測若影響民眾生計,就要有一定保障措施:開放並公開演算法、經專家認證完善有效、讓民眾有機會反駁預測結果。
- 以巨量資料治國的重點就是堅守個人必須對自己確實做出的行為負責,而非客觀從資料判定他們是否可能做錯事
4. 培養審查巨量資料演算法的學者,以釐清責任歸屬與惡意
巨量資料的預測方式越來越難以理解,導致災難發生時可能無法追究責任和回溯源頭,因此有必要培養調查演算法的專家。演算學家要基於專業判斷預測方式是否有偏見,並且負責查核應用方式是否合法,另外也要確保資料不被濫用。
沒有留言:
張貼留言