
當醫生聲稱(chēng)發(fā)現了“大有可為”的新療法,這樣的論斷是否可信?會(huì )不會(huì )是基于有偏差甚至不可信的數據得出的結論?當環(huán)保主義者認為廢物堆積站會(huì )致癌,但工廠(chǎng)主憤然駁斥時(shí),該聽(tīng)誰(shuí)的?
與此同時(shí),營(yíng)養專(zhuān)家們不停地變更著(zhù)健康食譜,而談及恐龍滅絕的原因,學(xué)者們依舊喋喋不休。你究竟該相信哪些科學(xué)研究?
本章討論數據的使用(以及偶爾的誤用)。不要一看到“數”這個(gè)字就覺(jué)得頭大,其實(shí),成為一個(gè)優(yōu)秀的科學(xué)作者并不需要多深的數學(xué)造詣,而只要求具備一點(diǎn)健康的懷疑精神,以及提出涉及研究關(guān)鍵點(diǎn)的問(wèn)題的能力。為了分辨出可能的真理與可能的垃圾,你先得回答以下問(wèn)題:
1. 研究是否已結束?以及論斷所基于的觀(guān)測數據是否全面?研究是如何設計與實(shí)現的?
2. 數字都是多少?研究樣本是否足夠大(如是否有足夠的病例、 實(shí)驗,抑或其他數據),從而讓結論令人信服?結論是不是統計顯著(zhù)的?這個(gè)詞的意義很簡(jiǎn)單:基于科學(xué)的標準,最終的數據結論不太可能通過(guò)純粹的概率產(chǎn)生。
3. 對研究的結論是否有其它可能的解釋?zhuān)?/p>
4. 是否存在有意或無(wú)意的偏差影響了研究結論?
5. 有沒(méi)有別的專(zhuān)家對實(shí)驗結果進(jìn)行檢驗?實(shí)驗結果與其它研究的理論或理念是否吻合?
探索研究的原則
為了回答上面的問(wèn)題,我們首先要了解科學(xué)分析的五個(gè)原則:
1. 不確定事物的確定性
專(zhuān)家們不但對我們該吃什么沒(méi)個(gè)定論,連我們生了病該怎么辦也不斷改口;越來(lái)越多的藥物和療法被廢棄,因為最新的研究質(zhì)疑它們的效力和安全性。甚至連宇宙的形狀(更準確的說(shuō),是天文學(xué)家想出的形態(tài))也是眾說(shuō)紛紜。
在某種程度上,類(lèi)似的反復無(wú)常影響了科學(xué)的聲譽(yù)。但作為科學(xué)發(fā)展常態(tài)的一部分,這些其實(shí)也都在情理之中。
科學(xué)著(zhù)眼于所謂真理的可能性。結論的得出都基于強而有力的證據,而不是指望那難以琢磨的證明過(guò)程。自然的復雜性和研究過(guò)程本身都帶來(lái)了不確定性。
但科學(xué)可以承受這種不確定并繼續前進(jìn),因為科學(xué)本身就是不斷進(jìn)化的,如同一段可在中途調整羅盤(pán)的漫長(cháng)旅程。從醫學(xué)到天文學(xué),從地理學(xué)到心理學(xué),過(guò)去的結論總是不斷的被重新檢驗——并在必要時(shí)被修正(甚至被舍棄)。我們應該向自己的編輯和新聞主管說(shuō)明以上觀(guān)點(diǎn)。當社會(huì )大眾理解了為什么絕大多數科學(xué)家 充其量只會(huì )說(shuō):“這些強力的證據說(shuō)明某某某某論斷可能是正確的。還請期待我們更新的研究成果?!蹦切┰S的不確定性就絲毫不會(huì )在關(guān)鍵問(wèn)題上造成妨害。
在我們繼續下面的話(huà)題之前,請記?。翰⒎撬械难芯慷际窃谇蟮忍?。
2. 概率、功效,和大數
你聽(tīng)過(guò)那個(gè)小白鼠藥物實(shí)驗的笑話(huà)嗎?“33%治愈,33%死亡——第三只逃走了?!边@個(gè)故事提醒我們數字對于評價(jià)研究的意義之重。
研究時(shí)病例越多越好;新療法的成功率越高越好;氣象觀(guān)察越多,氣象學(xué)家預測下周下雨情況的準確率就越高。下面我們來(lái)看看統計概率上是如何定義某件事為真的:
為了度量結論為真的概率,一個(gè)被廣泛接受的準則是 P(即概率,probability)值,它的計算依賴(lài)于被研究的病例(或其他任何事物)的數量。當 P 小于或等于 0.05 時(shí),研究結論通常被認為是統計顯著(zhù)的。它意味著(zhù),如果結果只是因為巧合,那么 100 次實(shí)驗中只有 5 次或更少的次數會(huì )得到這個(gè)結果。 P 值越小,則結果單純源于巧合的可能性越小。
換句話(huà)說(shuō),病例(或其他對象)的數量越大,所得的 P 值就越是可靠。
還有兩個(gè)相關(guān)的概念可以用于度量結論的統計價(jià)值。首先是功效,它代表了我們發(fā)現一個(gè)現象的可能性——比如說(shuō),長(cháng)期工作于某化學(xué)品環(huán)境中的工人罹患癌癥案例的增加。如果這種化學(xué)物質(zhì)確實(shí)致癌,研究的工人越多,觀(guān)察的越多,我們發(fā)現這一點(diǎn)的可能性就越大。一種新藥是否會(huì )造成罕見(jiàn)但致命的副作用可能要等到它推廣上市,被上萬(wàn)、甚至上百萬(wàn)的患者服用后才能判斷。
其次是統計強度。如果某污染物可造成高于背景值10%的患病率,那么兩者間可能有相關(guān)性,但也可能沒(méi)有;如果患病率高出 10倍(比如抽煙者和不抽煙者患肺癌的可能性),兩者有關(guān)的可能性就非常大。
作為科學(xué)作者,用不著(zhù)自己去計算。他們只需要對研究者說(shuō):讓我看看數據。
需要提出的關(guān)鍵問(wèn)題還有:你的所有結論都是基于統計顯著(zhù)的研究結果么?(如果不是的話(huà)你就要注意提醒你的讀者了)P 值——研究結果僅僅由巧合造成的可能性——是多少?如果某種現象存在,你的實(shí)驗樣本量是否足夠大以發(fā)現它?有其它數據與你的結論矛盾么?有沒(méi)有擴大樣本量再次實(shí)驗的計劃?
然而,即使研究結果是統計顯著(zhù)的并且有足夠的功效,也不能說(shuō)明它就是正確的或是重要的。所以我們還有下面的原則。
3. 有沒(méi)有別的解釋?zhuān)?/p>
僅僅有相關(guān)性并不能代表有因果關(guān)系。太陽(yáng)升起并不是因為公雞打鳴;患者體內發(fā)現的病毒也許只是個(gè)無(wú)辜的旁觀(guān)者,而并非致病元兇;城鎮供水系統中的化學(xué)物質(zhì)也不一定要對鎮上的病患負責。只有更深入的研究才能揭示因果關(guān)系。
舉個(gè)例子:有些科學(xué)家(以及很多新聞報道)猜測兒童疫苗接種可能會(huì )導致自閉癥。而絕大多數專(zhuān)家認為這僅僅是巧合,因為所謂的相關(guān)性其實(shí)只是因為自閉癥一般就在孩子們接受預防接種的年紀開(kāi)始發(fā)作?,F在的問(wèn)題是,由于錯誤的擔心孩子會(huì )因接種得上自閉癥,一些家長(cháng)可能會(huì )推遲孩子接受麻疹或其他危險疾病疫苗注射的時(shí)間。但新聞報道卻沒(méi)有告訴他們因為沒(méi)有打疫苗而染病去世的案例數量。
研究的時(shí)間跨度也十分重要。氣象研究必須基于許多年的數據,這樣才能避免正常氣候循環(huán)的干擾;某種療法可能會(huì )減輕癌癥患者的癥狀,但只有時(shí)間能驗證這種療法能否最終治愈并延長(cháng)患者的生命。有些患者可能在長(cháng)期研究過(guò)程中退出。 但如果他們是因為療效不佳而退出的,那么也許就會(huì )使實(shí)驗的數據變得不真實(shí)。
然后是所謂的健康工人效應:一個(gè)研究者在研究長(cháng)期工作在危險化學(xué)品環(huán)境下的工人時(shí)發(fā)現,他們竟然比普通人更加健康,但這并不能說(shuō)明這種化學(xué)品對健康無(wú)害——不健康的工人根本就無(wú)法獲得并長(cháng)期保有這份工作。
同時(shí),還要考慮到正常波動(dòng)。人是復雜的,同一個(gè)人可能每天都會(huì )有一些生理上的變化,人群之間更是如此。僅僅因為正常波動(dòng)或其它研究條件限制,相似的研究就可能得出略有不同的結果,有時(shí)甚至會(huì )有顯著(zhù)的差別。
諸如此類(lèi)的問(wèn)題我們可以繼續說(shuō)上很多,但廣泛的提問(wèn)可以保證我們不誤入歧途。問(wèn)問(wèn)研究者(還有你自己):你能想到別的原因來(lái)解釋實(shí)驗的數據和結論嗎?實(shí)驗時(shí)間是否足夠長(cháng),以支撐最后的結論?
在科學(xué)中,偏差這個(gè)術(shù)語(yǔ)專(zhuān)指錯誤地忽略了其它可能解釋。但作為科學(xué)作者,你還應該探討另一類(lèi)偏差發(fā)生的可能性: 你的研究由誰(shuí)贊助?很多誠實(shí)的研究者會(huì )告訴你,他的研究由某個(gè)對這項研究有興趣的公司贊助。你應該詢(xún)問(wèn)這類(lèi)聯(lián)系,并告訴讀者。
4. 研究的等級
由于成本和其它原因,不是所有研究的方法和過(guò)程都完全一樣。因此,某些類(lèi)型的研究更值得我們相信。
在生物醫學(xué)研究中,我們應該謹慎對待實(shí)驗室和動(dòng)物實(shí)驗結果(即使實(shí)驗使用了遠多于三只老鼠)。而它們可以為人體實(shí)驗提供重要線(xiàn)索。
很多流行病學(xué)和醫學(xué)使用回溯的方法進(jìn)行研究,即使用過(guò)去的數據或者回憶的事實(shí)。這種方法常常是必要的,但往往又是不太可靠的。 因為記憶會(huì )淡忘,而記錄經(jīng)常是不完整的。 較好的辦法是進(jìn)行前瞻研究,選擇一群人并長(cháng)時(shí)間追蹤觀(guān)察——有時(shí)候要觀(guān)察好幾十年。
臨床研究的“黃金準則”是雙盲實(shí)驗,即將患者隨機分配到治療組或控制(對照)組,并對控制組的患者使用安慰劑。所謂的雙盲是指患者和研究者都不知道自己所在的組,直到整個(gè)實(shí)驗完成。這避免了人為意愿干擾實(shí)驗結果。而對患者隨機分組更可以防止研究者下意識地將可能表現得更好的患者放入治療組。
并不那么嚴格的研究也可能很重要——有時(shí)甚至很必要。但我們更應該信任那些嚴謹的實(shí)驗。
我們可以對所有領(lǐng)域的研究者提這樣的問(wèn)題:你為何如此設計你的實(shí)驗?大家參考你的結論時(shí)應該注意些什么?還經(jīng)常會(huì )追問(wèn):現在有沒(méi)有必要做一個(gè)更權威的實(shí)驗?
5. 同業(yè)審查的力量
對于出現在經(jīng)過(guò)同業(yè)審查的期刊中的研究,我們可以大大加分,因為這意味著(zhù)這項研究通過(guò)了其他專(zhuān)家的審核。但這并不能保證該研究一定正確,審查者也是人,也可能會(huì )犯錯。好的科學(xué)故事還可能來(lái)自科學(xué)會(huì )議,這時(shí)它們還沒(méi)有被出版甚至研究才剛剛開(kāi)始。但報道這些科學(xué)故事時(shí)需要格外的謹慎,并且多請教其他專(zhuān)家的意見(jiàn)。
問(wèn)問(wèn)研究者:還有誰(shuí)不同意你的結論?為什么?你的發(fā)現和結論與其它科學(xué)實(shí)驗以及理論吻合嗎?
想改變科學(xué)教條的研究者有提供證據的責任。同時(shí),科學(xué)界一向樂(lè )于驗證彼此的實(shí)驗??茖W(xué)作者應當在最杰出的研究之間找到一致的結論。
在《新聞和數字》一書(shū)中,我們給出的最終建議是:“聰明的作者 經(jīng)常 使用 ‘ 可 能( may ) ’ 、 ‘ 有 跡 象 表 明 ( evidence indicates,)’,而極少用‘證實(shí)(proof)’這樣的詞?!标U明你的報道中的不確定因素,提供恰如其分的提醒和說(shuō)明,會(huì )大大增加報的可信度。
成本和平均數
留意成本。改變小行星運行軌跡以避免與地球相撞的計劃確實(shí)很有意思,但這要花多少錢(qián)呢?我們可以承受嗎?大眾對新療法的成本也極其關(guān)注,所以你應當問(wèn)研究者:你的應用方案會(huì )不會(huì )太貴,導致沒(méi)法普及?如果研究者沒(méi)有做成本預估,嗯,這可又是一段新聞。
不要被平均數誤導。即使是平均 4 英尺深的湖也能淹死人的,因為湖的中部足有 9 英尺深。某項研究中樣本人群平均每周鍛煉三小時(shí),沒(méi)有提到的是,大部分人壓根兒就不運動(dòng),而其他人是狂熱的運動(dòng)愛(ài)好者??偸窃?xún)問(wèn),平均數背后的真相是什么?廣播里說(shuō)如果每天鍛煉并且控制飲食將“更加長(cháng)壽”,事實(shí)上只是這樣做的人們平均活得更長(cháng)了,而作為個(gè)體的“你”只是增加了活得更長(cháng)的可能性。
比率和風(fēng)險
避免比率的混淆?!度A盛頓郵報》 曾有一篇報道以“飛機事故率創(chuàng ) 13 年新高”為題,而其實(shí)它和其它很多文章一樣誤用了“率”這個(gè)字,整篇報道圍繞著(zhù)事故數量和死亡人數作文章,完全沒(méi)有提及“率”的概念。事后他們不得不發(fā)表勘誤,證實(shí)事故率——每十萬(wàn)次飛行中發(fā)生事故數量的比率,“多少分之多少”——實(shí)際上在逐年下降。(如果當初報道標題是“飛機事故創(chuàng ) 13 年新高”的話(huà)就沒(méi)有問(wèn)題了。但是對比這個(gè)例子和許多其它情況,我認為比率能更客觀(guān)的反映事實(shí)。)
小心風(fēng)險數字。有人引用每噸危險物質(zhì)釋放到空氣中致死的人數,或者每一萬(wàn)個(gè)暴露在該物質(zhì)中的人里死亡的人數,也有人引用每年死亡的人數,或者十年內的死亡總數。有很多選擇可以讓事情看起來(lái)更好或更糟。確保自己全面客觀(guān)地理解了整件事。
當你遇到相對風(fēng)險或絕對風(fēng)險時(shí),要注意它們的區別。相對風(fēng)險度量了染病風(fēng)險的增加程度。舉例來(lái)講,某研究指出暴露在某種化學(xué)物(比如說(shuō)某種假想的紫色藥劑)中的人罹患某種癌癥的幾率是其他人的兩倍,則相對風(fēng)險為 2。
但從影響面來(lái)說(shuō),比起罕見(jiàn)疾病的大幅風(fēng)險增長(cháng),常見(jiàn)疾病的風(fēng)險增長(cháng)更加重要,哪怕只是微小的增長(cháng)。絕對風(fēng)險即考慮到這一點(diǎn),它計算“每年每幾千人中某事件的數量”。相對風(fēng)險對于發(fā)現潛在的威脅非常重要,而絕對風(fēng)險則對于公共衛生和臨床治療更有意義。
謹慎的看待群集現象。當你聽(tīng)說(shuō)鄰近的社區或城鎮中癌癥患病率極高時(shí),這也許有待更多的研究,但別恐慌。在我們的國家里有如此多的社區,總有些地方的癌癥病例(或先天缺陷或別的什么原因)比正常數量要多。這就是所謂的小概率事件原理。
讓正確的人承擔責任。有人會(huì )質(zhì)疑:“他們怎么知道這玩意兒無(wú)害呢?”抱歉,科學(xué)不能舉反證。誰(shuí)主張有害,誰(shuí)就有舉證的義務(wù)。
民意調查中潛藏的危險
民意調查不僅僅關(guān)乎政治,它可以幫助我們知道人們做(以及不做)什么來(lái)保持身體健康;知道公眾是否支持花更多預算進(jìn)行太空探索,等等。但要讓結果可信,調查方法必須科學(xué)。
受訪(fǎng)人群必須是從我們的目標人群(例如中西部的登記選民,或二十歲以下的煙民)中隨機抽樣而得的。要注意的是:脫口秀節目經(jīng)常通過(guò)電話(huà)采訪(fǎng)調查民意,但只有該節目的觀(guān)眾會(huì )打熱線(xiàn)進(jìn)來(lái),而且只有那些有強烈意見(jiàn)要表達的觀(guān)眾才會(huì )打電話(huà),因此樣本并不是隨機的,不能算是一個(gè)科學(xué)的調查。
受調查的人越多,抽樣誤差的影響就越小。例如,統計誤差可能是“正負三個(gè)百分點(diǎn)”,意思是如果進(jìn)行二十次調查,有十九次(即統計顯著(zhù)水平)的結果會(huì )落在本次結果正負三個(gè)百分點(diǎn)的范圍內——前提是除了抽樣外其它程序也都正確。
調查的問(wèn)題也需要精心設計,消除一切可能的誤導和誘導因素。你需要問(wèn)設計者:你是怎么提問(wèn)被訪(fǎng)者的?這次調查是誰(shuí)贊助的?
需要注意的是,民意調查只能反映人們在特定時(shí)間對問(wèn)題的判斷,而這種判斷可能會(huì )因時(shí)而變。
總結一下,報道民意調查和科學(xué)研究的底線(xiàn)是:觀(guān)察數字,記著(zhù)數字越大越好;不斷問(wèn)自己有沒(méi)有其他方法可以解釋研究或民意調查的結果;考慮所有可能的有意無(wú)意的偏差;記著(zhù)不確定事物的確定性原則;
聯(lián)系客服