統計學的藝術
數學上的「零」和統計學上的「平均」都是絕不簡單的事,要懂及用好「零」與「平均」,是門藝術。
先講「零」。
筆者數學考試得分,很多時是「零」,但這無損我炒股。因為股價到「零」就不用炒,「零」以上就可以隨意以至亂炒,反正1998年有三位數學極精的諾貝爾獎級經濟學家,所主理的「長期資本對沖基金」,就被其「精確」的數學投資模式,累到要破產。2008年雷曼兄弟爆破,累到全球金融、經濟雞毛鴨血至今,就是因為他們的數學投資模式,千算萬算,都算不出自己會倒閉。
筆者一直不知零的威力,一直到大學第一年才知。
時為1972年(?)港大新生活動中有兩個Union Nite(學生會之夜),First Union Nite是很文藝的,比賽合唱,當年由鄭慕智所率領的聖約翰堂宿舍掄元,是實至名歸。
Second Union Nite是戲劇比賽,傳統上,這是比鹹劇,即比三級,由於我們是大學生嘛,所以比的是「意」,而不是裸露,由各堂社,各派一個代表做評判,一直以來,評分標準是那一齣劇意境最三級者就勝出。在72年,在這個打分上出了點平均分事,累到利瑪竇堂和大學堂聯手去拆康寧堂的堂舍,百幾位大學生去毆鬥,如放在今天社會,可能要賣上幾日新聞,但當時只有港大學生會報有報道。
事緣如此:傳當年康寧堂派了位新同學去做評判,這位新同學以戲劇應有教化意義:不應「淫」,所以他給每個堂社的分都是「零」,由於自己不能為自己堂打分,而又當各堂社都按傳統給最差的也廿分、卅分時,康寧堂就由其他堂社得到起碼不是零分,但康寧堂就給各堂社都零分,一平均上來,就是康寧堂勝出。不過,觀眾的眼睛都知甚麼是夠「水準」,一比之下,怎會到你掄元呀!便要求查分,一查之下,便認為康寧堂出蠱惑,但康寧堂的新人評判則堅執,戲劇是藝術,講口之後便講手了。
這是筆者第一次,認識到零分是可以有這麼嚴重後果的,亦認識到平均分,可以被出到蠱惑。
筆者數學不佳亦因此不會讀統計,但由於畢業論文要用到統計數據,所以也自修統計學,開始認識到平均,是可以有mean、mode、median、weighted、simple之類,各有其用,在不適用的時刻用上,那就會產生:「以統計去呃人,或慘被統計呃」的後果。
且以筆者大學時的畢業論文作個解釋,筆者大學畢業論文是講如何量山坡斜度。圖一可作說明。實際的山坡是上方陡斜,下方緩斜,你能用平均數,即將陡斜角度逾70度,加上緩斜角度20度,兩者加上來90度除2,得出45度,便謂該山坡是45度嗎?肯定不,45度的山坡是虛擬的(虛綫所示)亦絕沒有意義。真正的山坡是70度與20度,絕不是45度,你謂山坡是45度,便是呃人,不明所以的人可以被人呃,或心甘被人呃,講完引子講引伸。
統計學的符號 需小心演繹
無綫新聞3月15日:港大民調被批用平均分表達有誤導成分,港大民研星期二公布最新一次特首支持度調查,梁振英得47.5分,不合格。有網站看回調查的原始數據,發現這個評分以平均分來計,提出調查機構的結論是否公允。(節錄)
港大民調的原始數據,顯示約1,000名受訪者中,最多人是給50至59分,有大約6成人給50分以上的及格分數。但有近一成人給予0至9分,當中給0分的佔多數,同時亦有大約半成人給予最高的90至100分,除開平均分,就得出不合格的47.5分。
以數據進行的調查,用平均分(mean)、中位數(median)甚至眾數(mode)等作分析工具或會得出不同的看法,是研究者永恒要處理的問題。
上等的研究亦必須找到最有解釋能力的分析工具。今次批評的人,是認為有人給予特首低分,所以影響了平均分,不過給予0分者達9.1%,他們即使是「極端」數字,仍然接近一成,如果只以中位數來呈現特首的平均分,又是否充分反映整體社會對其的評價,值得三思。
西方政治學學者Benjamin Ginsberg就提醒,由於民調強調代表性,把對事件不關注或持中立態度的市民也包括在內,得出的民意自然也較溫和。在重視民調外,亦不應將其他的民意表達方法,如示威抗議,貶為個別利益集團或小撮人的意思,否則不利社會的討論。
Benjamin Ginsbery講的要把不關注或持中立者也摒除,是有商榷的,唔出聲就當啞?畀50分就當無立場?
對有關調查怎去公布好?唉!用個腦都知,擺出數據,讓觀者演繹,而不是由分析者演繹後,推與不識mean、mode、median的大眾。其實要做,舉手之勞啫,用個Bar Chart搞掂啦!如附圖,真相示人,由觀者解讀便是。這是治學之道,不是政治之道。
點石成金 - 石鏡泉 舊文