四年前,作者還是哈佛經濟系博士班學生,正努力找尋論文題目。有天早上,他發現 Google 基本上已為所有研究者備好所需的資料,也就是說,Google 是全球人類興趣資料庫的集中地,這些資料簡直就是任何對人類行為感興趣的人夢寐以求的:從我們每個人每天的網路搜尋中找到行為模式。然而,這些資料早已存在好些時日,卻從未有任何報章雜誌對其有過深刻的報導與研究。
賽斯‧史蒂芬斯—大衛德維茲Seth Stephens-Davidowitz 《紐約時報》撰稿人暨華頓商學院客座講師,曾為Google數據科學家。史丹佛大學哲學系畢,哈佛大學優等生榮譽學會(Phi Beta Kappa)成員暨經濟學博士,目前定居紐約市。史蒂芬斯—大衛德維茲的研究使用新的大數據來源,揭露人們潛藏的行為和態度,並已刊登在《公共經濟學期刊》(Journal of Public Economics)等聲望卓著的出版物。
作者在書中並未對「大數據」下一個清楚的定義。一來,在資訊爆炸時代,人類一天可以產生二百五十萬兆位元組的資訊量,到底要多「大」才夠「大」?二來,擁有海量數據並不會自動產生精闢結論。「垃圾進,垃圾出」(Garbage in, garbage out)是所有曾學過統計的人致力避免的錯誤。我們不應高估數據「量」的重要性(畢竟跟人類一天產生的數據量相比,再多數據也都是相對少量)。即使是相對較少量的數據但使用新穎方式處理,也可能讓我們看見以前不知道的真相。
總之,作者跳過了「定義大數據」的階段。選擇了另一種論述方式:讓大數據的力量說明它自身的特質。
作者在書中試圖論證四種「大數據的力量」,包括:
⒈提供新類型的數據:這主要是仰賴「電腦運算」的力量。包括書籍中的字詞、畢業紀念冊的照片,都可以藉由電腦運算處理成千上萬、上千萬筆資訊,並做出有意義的統計結果。若是使用人力,恐怕難以處理。 ⒉提供誠實的數據:這是仰賴「以為沒人知道」的力量。作者運用了 Google 搜尋統計,發現人們不願說出口的祕密。例如深藏內心的種族歧視、仇恨思想,以及推測未出櫃的同志人口、未報案的虐童案件、墮胎手術等政府統計資訊沒有處理到的角落。還有,色情網站 PronHub 讓作者得以一窺人們不會公開談論的性事。這都來自於大數據曝光了人們原本以為沒人在看的角落。 ⒊可以針對更特定的人口進行分析:大數據讓獲取每個樣本的單位成本大幅降低,「海量樣本、超低成本」成為現實。只需要幾行程式碼就能取得數十萬使用者的資訊,我們不僅可以看到大趨勢,更可以針對特定人口(例如出生在特定年分的男性是否喜歡某支球隊)做出有意義的分析。 ⒋更容易進行「因果關係」的實驗:過去的統計學找出了很多「相關性」,但要找出「因果關係」可就不是這麼容易了。拜網路之賜,幾行程式碼就可以讓成千上萬不知情的使用者協助企業進行A/B測試(A/B testing)。大數據不只窺伺人們的祕密,更讓人們不知不覺間幫助企業挖掘連自己都未必知曉的偏好。
我們可以用大數據找出「賽馬左心室大小可以成為預測賽馬明星的有效指標」,但左心室何以影響馬匹的運動表現?還是要由獸醫學解答。大數據告訴我們美國極右派網站「風暴前線」(Stormfront)的使用者造訪《紐約時報》(New York Times)網站的可能性是他們造訪「雅虎新聞」(Yahoo News)的兩倍,是「勘查敵情」還是其他原因?大數據顯示在景氣蕭條時期虐童相關的 Google 搜尋量增加,但官方接獲的通報數卻未顯著上升,這之間的落差代表什麼?臉書可以撈出許多大數據,但臉書的貼文真的呈現人們的真實生活嗎?這些問題,都需要進一步的控制變因以及質性研究分析才能解答。
以上問題並沒有簡單的解答。但我認為這些問題值得每一位讀者放在心上。從作者進行的研究項目,包括美國潛藏的種族主義、仇恨言論、出身與階級流動、未出櫃同志人口、虐童案件、政府態度對墮胎的影響等,也可看出他手握大數據的同時仍然保有對社會的關懷。但本書並非學術書,書中提到非常多大數據統計的案例,但絕大多數都沒有標明統計的細節(例如時間區間、樣本數、抽樣母體等)。且在談論與色情、性癖好有關的章節,雖然作者在註腳清楚表明自己其實並不知道 Google 搜尋者的性別,但為了行文方便還是直接採取了假定所有人都是異性戀的方式。因此本書比較像是報紙專欄的集結,而非一本論文。不過這也正是本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。
然而,這些方法都無法提供一個暢通無阻的觀點,將人們的內心世界一覽無遺,其間的問題就在於一個殘酷的取捨。人的思想是複雜的主題,不像知名導演伍迪.艾倫(Woody Allen)用速讀方式看完《戰爭與和平》(War and Peace)後,只知道「那是一本關於俄羅斯的小說」。我們知道人類的內心世界並非那樣簡單,但是這些主題如此糾纏又牽涉甚廣,根本讓科學家難以分析。當然,當人們訴說自己的心聲時,我們會理解人們意識流的豐富性,但是獨白並非測試假設的理想數據。另一方面,如果我們專注於容易量化的方法,比如說:人們對字詞的反應時間或對圖片的皮膚反應,雖然我們可以製作出統計數據,卻將複雜的認知結構單純化為單一數字。即使最複雜的神經影像學方法論可以告訴我們,一個想法在三維空間中如何展現,卻無法告訴我們想法是由什麼構成的。
在可追查性和豐富性之間做取捨已經讓狀況有夠複雜了,研究人性的科學家們卻還要被小數法則(Law of Small Numbers)困擾。這項法則是阿莫斯.特維斯基(Amos Tversky)和丹尼爾.卡納曼(Daniel Kahneman)為這種謬誤所取的名字,科學家們誤以為人口特質會反映在任何樣本中,無論樣本多小。但事實上,就連計算能力最強的科學家也無法憑直覺斷定,一項研究真正需要調查多少對象,才能不考慮樣本中隨機出現的異常值,而能將所有美國人概括陳述。至於我們不了解的智人(Homo sapiens),那就更不用說了。當樣本是透過便利方式蒐集,一切就變得更不確定,比方說,我們為了取得樣本,在課堂中給大二學生一點小錢買啤酒。