【摘自第一章】
今日,許多研究者基於各種意想不到的目的進行隨機試驗。荷蘭的研究者隨機指派小學生參與國內一個頂尖足球隊舉辦的運動課程,想知道這是否能讓他們在數學與閱讀方面有更好的表現(結果沒有)。華盛頓特區有研究者隨機為一些家庭訂閱《華盛頓郵報》,想知道閱讀該報對他們的政治觀點有何影響(他們投票給民主黨的傾向提高)。一項法國的實驗發現,弱勢學生如果贏得寄宿學校的入學資格,考試成績也會大幅提升。一個經濟學家團隊在印度用一項隨機試驗來測試較好的爐灶是否能夠透過降低室內空汙而改善民眾的健康(效果是暫時的,只持續了一年左右)。在衣索比亞,一項隨機試驗想知道民眾獲得血汗工廠的工作是否能改善他們的生活(多數人做不到幾個月就辭職了)。在美國奧勒岡州,有試驗比較不良少年是在寄養家庭還是集體收容比較好(寄養家庭似乎比較好,尤其是對女孩來說)。
無論你喜不喜歡,隨機試驗已經存在於你的生活當中。在大多數的先進國家,除非藥物經過隨機評估,否則政府不會給付藥物費用。世上最精明的援助機構逐漸開始會先尋找相同程度的證據,再分配資金到各項計畫。你今天有上網嗎?恭喜,你八成已經參與了好幾項隨機試驗。Netflix、亞馬遜、Google都持續利用實驗來優化自己的網站。
隨機試驗擁有讓人感到意外的力量。一九七八年有一部紀錄片在美國上映,片中背景是一座紐澤西州的監獄。這部《恐嚇從善》(Scared Straight)由當時還很年輕的知名演員丹尼.葛洛佛(Danny Glover)擔任旁白,把一群少年犯帶去和冷酷心腸的罪犯面對面。那些青少年聽了言語粗暴的囚犯形容獄中生活,應該要被「嚇」得從此以後循規蹈矩。在某一幕,那群年輕人被命令脫掉鞋子,以體驗個人財物被奪走的感覺。其中一個囚犯咆哮說:「你們要是敢碰這些鞋子,我就把你屁股踢爛。」
《恐嚇從善》不僅得到一座奧斯卡金像獎,也驅使全美各地的決策者制定「恐嚇從善」計畫。通常這些決策者的證據來源都是奇聞軼事。有時候他們會拿出品質低劣的評估報告,其內容是把計畫參與者和拒絕參加的青少年拿來比較。這些研究認為恐嚇從善計畫減少了犯罪活動,最多達一半。
如果決策者聽過更謹慎的評估,態度可能會多一點懷疑。早在一九七八年,犯罪學家芬肯諾爾(James Finckenauer)就進行了第一項針對恐嚇從善計畫的隨機評量。「證據顯示,參與計畫的孩子犯罪風險高過沒有參與的孩子。」正如研究者常說的:「奇聞軼事加起來並不等於資料。」
許多人忽視了芬肯諾爾的隨機研究,但是長期下來,更進一步的嚴謹研究都得到同樣的結論。二○○二年,非營利的坎貝爾協作組織(Campbell Collaboration)發布了一篇針對研究證據的全面考察報告。這篇報告指出恐嚇從善計畫並未減少犯罪,反而讓犯罪增加了多達四分之一。此外,一些年輕的參與者說獄囚會偷他們的東西,並且向他們求歡。
恐嚇從善計畫就像魔鬼終結者一樣,相當難以去除。二○一一年,A&E頻道播出一個名為《現身說法》(Beyond Scared Straight)的電視節目,延續了恐嚇從善計畫有用的迷思。
人類都喜歡好故事。但是統計資料能幫助我們分辨事實與童話之間的差異。恐嚇從善是很美好的故事,但它的核心是一個迷思。然而故事通常比枯燥乏味的證據更吸引人,所以政府過了幾十年才終止計畫。
◆
傳統觀念被隨機試驗顛覆的另一個例子,是弱勢青年的職業訓練。一九八○年代中期,美國政府請人針對職業訓練課程進行一項大規模隨機試驗。實驗結果顯示,參與職訓課程的青年在隨後三年的收入少於沒有接受訓練的人。其他隨機試驗則指出職業訓練雖然沒有壞處,卻也沒有帶來什麼好處。
這些發現令人沮喪,但是也促使研究者研究其他能幫助弱勢青年的方法。芝加哥的一所「家長學院」付錢給家長參加幼教專家的工作坊,提升了白人與西班牙裔學生的表現(但是對黑人學生沒有影響)。弱勢高中生的輔導課程有助於降低缺席率(但是對學業表現的助益較少)。發送樂觀正向的簡訊給成人教育的學生,使退學率降低了三分之一。
評估一項政策也就是問:「有用嗎?」難題在於我們得要知道如果計畫沒有施行,事情會是怎樣。我們彷彿正在進入科幻小說世界(請下小調音樂),需要知道從未發生過的事。
在電影《雙面情人》(Sliding Doors)中,我們觀看葛妮絲.派特蘿(Gwyneth Paltrow)飾演的海倫人生如何進展,一切取決於她有沒有趕上某班火車。其中一個情節是她趕上了火車,發現男友和另一個女人上床,於是甩了男友並開設自己的公關公司。另一個情節是海倫錯過了火車,在街上被人搶劫,而且在兩個收入微薄的工作之間兩頭燒,完全沒有察覺男友不忠。《雙面情人》之所以是一部有趣的電影,原因在於我們兩種發展都能看到,就像重新閱讀一本「多重結局冒險」(Choose Your Own Adventure)系列的書。我們能看見經濟學家所謂的「反事實」,也就是沒有踏上的那條路。
在現實生活中,我們無法真正見到反事實,但有時候事情非常明顯。如果你想知道在校內抽獎被抽中的感覺有多棒,只需要比較那個幸運兒和其他人臉上的表情。如果你想知道下雹暴對汽車有什麼影響,只需要比較在郊區被雹暴打到的車輛,以及在市區某處逃過雹暴的車輛。
不過有時候反事實沒這麼明顯。假設你頭痛欲裂,決定吃止痛藥上床睡覺。如果你早上醒來頭不痛了,把全部功勞歸給止痛藥並不明智。也許頭痛本來就會自己好。或許吃藥這個舉動就已經夠了,也就是安慰劑效應。當你瞭解到我們處於低潮時偶爾會尋求幫助,問題又會變得更加難解。多數病患都會自行痊癒,所以你若想知道看醫生的效果,把反事實設想成你會流一輩子的鼻水就顯得很荒謬。同樣的,多數的失業者最後還是會找到工作,所以你若想知道職業訓練的效用,假設沒有參與職訓就會永遠失業也是錯的。
研究者花費多年思考有什麼最好的方法能提供可靠的比較組,但是他們不斷回頭採用的標竿還是隨機試驗。隨機把參與者分成兩組,一組接受處理,另一組沒有—沒有比這更好的方法能查知反事實。
在實務上,可以透過抽籤、丟硬幣或使用亂數產生器,將參與者隨機分組。假設我們請世界上每個人丟一枚硬幣,最後會有將近四十億人在正面組,將近四十億人在反面組。在能輕易計量的事物上,這兩組都可以做比較。舉例來說,兩組當中男人、富豪與移民的人數會很相近。這兩個組別在一些無法計量的方面也會很相似。每一組都有數量相當的人罹患尚未診斷出來的腦癌,也有數量相當的人明天彩券會中獎。現在想像我們請正面組當天晚上多睡一小時,然後在隔天晚上對所有人進行問卷調查,請大家為自己對人生的滿意程度打分數,範圍從一分到十分。如果我們發現正面組比反面組快樂的話,推斷多睡一點有助於消除鬱悶就會很合理。
隨機試驗的美好之處在於它能避開一些或許會干擾到觀察分析的問題。假設我告訴你,研究調查通常顯示睡比較久的人比較快樂。你也許會理性地回答說那是因為快樂帶來更多睡眠—脾氣好的人通常比較早上床。或者你也許會主張快樂與睡眠都是另一件事的產物,像是處於穩定的關係中。總之,觀察研究總能用一句古老的評論反駁:相關並不代表有因果關係。
會引發誤導的相關性,在我們周圍比比皆是。冰淇淋銷量和鯊魚攻擊有關,但那並不代表你就要抵制威比先生冰淇淋。鞋子尺寸和考試成績有關,但是買大人的鞋子給幼稚園小朋友並沒有助益。消耗較多巧克力的國家得到諾貝爾獎的次數較多,但是狂吃吉百利巧克力並不會讓你變成天才。
相較之下,隨機試驗利用機率的力量來分派組別。正因如此,農夫運用隨機試驗來評估種子與肥料的品質;醫學研究人員使用隨機試驗來測試新藥。大多數情況下,隨機試驗提供的證據更有力、更明瞭。試驗結果不僅更禁得起詳細檢視,也更容易對一般人解說。一名社會研究者在回憶學習隨機指派的情形時說:「這種新技巧的力量讓我折服。相關性的迷霧使得因果關係的推論充滿危險,而隨機試驗能穿透這層迷霧……我一直覺得這個驚人的事實很不可思議。」隨機試驗還是有其極限,我會在第十一章探討,但是在絕大多數情況下,我們做的隨機試驗實在太少,而非太多。