拿到數(shù)據(jù)后,很多人總是習(xí)慣馬上作圖、計(jì)算,然后得出結(jié)論馬上上報(bào)或發(fā)布。我在搜集資料時(shí)看到的很多醫(yī)學(xué)論文經(jīng)常這樣,對(duì)一種新藥或者新的治療方法進(jìn)行試驗(yàn),建個(gè)試驗(yàn)組,再找個(gè)對(duì)照組,經(jīng)過(guò)一段時(shí)間治療和觀察,分別收集一下治愈、顯效、有效、無(wú)效數(shù)據(jù),用卡方檢驗(yàn)一算,p值小于0.05,效果顯著,很快一篇論文報(bào)告甚至論文就出來(lái)了。
但是等等,你真的確認(rèn)你的分析是恰當(dāng)?shù)膯幔繑?shù)據(jù)收集是否遵循了隨機(jī)抽樣的原則?是否采用雙盲試驗(yàn)?方法是不是得當(dāng)?結(jié)論是不是合理?有沒(méi)有遺漏的細(xì)節(jié)?異常的數(shù)據(jù)應(yīng)該如何處理?試驗(yàn)中有沒(méi)有其它因素干擾如更換治療、意外退出等等的影響?如果不能保證這些試驗(yàn)條件,如果不能保證對(duì)數(shù)據(jù)分析謹(jǐn)慎的態(tài)度,這樣的分析結(jié)論就談不上可信。
另外,對(duì)于異常數(shù)據(jù)的處理也是經(jīng)常碰到的棘手問(wèn)題。在《女士品茶》這本書(shū)里就提到,包括因?yàn)榇_定了光速而獲得1907 年諾貝爾獎(jiǎng)的艾伯特·邁克遜(Albert Michelson)在內(nèi),很多科學(xué)家在開(kāi)始他們的計(jì)算前已經(jīng)剔除了一些數(shù)據(jù)。17 世紀(jì)初就發(fā)現(xiàn)行星繞太陽(yáng)以橢圓軌道運(yùn)行的科學(xué)家約翰尼斯·開(kāi)普勒(Johannes Kepler),他在研究古希臘天文學(xué)家的記錄時(shí),發(fā)現(xiàn)有一些觀測(cè)位置記錄不符合他正在計(jì)算的橢圓軌道,于是他就忽略了這些缺損數(shù)據(jù)(faulty value)。雖然現(xiàn)在人們不再輕易剔除數(shù)據(jù),但這些異常數(shù)據(jù)往往會(huì)造成分析模型的變化,如數(shù)據(jù)不再服從正態(tài)分布,這就給分析帶來(lái)了困難,因此有的人困難就會(huì)悄悄將其剔除掉或者修改一下數(shù)字。
在我看來(lái),這些異常數(shù)據(jù)可能蘊(yùn)含著豐富的信息,應(yīng)該考慮的是首先探究異常數(shù)據(jù)產(chǎn)生的原因。如果是記錄錯(cuò)了人員信息統(tǒng)計(jì)進(jìn)單位時(shí)間的意義,可以改過(guò)來(lái),并且探討一下如何更好地記錄數(shù)據(jù)。如果是一個(gè)有效的數(shù)據(jù),要仔細(xì)了解產(chǎn)生這個(gè)數(shù)據(jù)的條件,是否在試驗(yàn)時(shí)條件發(fā)生了變化;如果繼續(xù)試驗(yàn),能不能重現(xiàn)結(jié)果;是否有必要修改試驗(yàn)計(jì)劃,進(jìn)行補(bǔ)充試驗(yàn),也許新的發(fā)現(xiàn)就因這個(gè)異常數(shù)據(jù)誕生了。總之對(duì)待異常數(shù)據(jù)的處理要非常慎重。
1975—1977年擔(dān)任英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)第一任女會(huì)長(zhǎng)斯特拉·坎利夫(Stella Cunliffe),在1970 年被調(diào)到英國(guó)內(nèi)務(wù)部(the British Home Office)調(diào)查局,這個(gè)單位負(fù)責(zé)警察、法院和監(jiān)獄的監(jiān)督工作。
在刑事犯罪學(xué)這一領(lǐng)域的主要研究工作,就是積累長(zhǎng)期的數(shù)據(jù)資料,進(jìn)行分析,以發(fā)現(xiàn)公共政策對(duì)其可能的影響。如有一項(xiàng)分析是針對(duì)男性囚犯進(jìn)行的,即研究不同刑期的男性囚犯出獄后兩年內(nèi)重新犯罪的概率有多大。分析結(jié)果清楚地表明,刑期越短,重新犯罪的概率越高。從而作為一個(gè)證明:長(zhǎng)刑期可以把慣犯從街頭清除。坎利夫并不滿(mǎn)足于重犯率與刑期間簡(jiǎn)單對(duì)比的數(shù)表。她要進(jìn)一步分析數(shù)表背后所隱藏的東西。這種明顯強(qiáng)關(guān)聯(lián)關(guān)系主要是刑期在三個(gè)月之內(nèi)的犯人重犯率高,經(jīng)過(guò)仔細(xì)檢查,這些人“幾乎都是些年老的、處境悲慘的、精神不正常的人,他們被精神病醫(yī)院拒之門(mén)外,所以才一次又一次地反復(fù)犯罪后再進(jìn)監(jiān)獄。”而統(tǒng)計(jì)表所反映的數(shù)字人員信息統(tǒng)計(jì)進(jìn)單位時(shí)間的意義,實(shí)際都是這同一撥人,被當(dāng)作不同人重復(fù)統(tǒng)計(jì),才將短期犯罪的重犯率夸大了。統(tǒng)計(jì)表中的另一個(gè)極端表現(xiàn)是,刑期在10 年以上的犯人出獄后只有15%的人又重新犯罪。坎利夫認(rèn)為,“這里有一個(gè)很大的年齡因素,一個(gè)很大的環(huán)境因素和一個(gè)很大的犯罪程度因素。刑期長(zhǎng)的都是些犯大案的人,他們出獄后重新犯同樣大案的可能性也不大了。”因此,在她用兩個(gè)極端的情況將數(shù)表調(diào)整這后,重犯率和刑期間明顯的關(guān)系消失了。
曾任過(guò)英國(guó)首相的著名作家迪斯雷利說(shuō):有三種謊言,謊言,糟糕透頂?shù)闹e言和統(tǒng)計(jì)資料。
總之拿到數(shù)據(jù)一定要小心處理,提防得出錯(cuò)誤的結(jié)論。