Friday, November 20, 2015

網媒誤導的Regression Model

免費早餐 - 渾水
網媒誤導的Regression Model
2015年11月20日

渾水才思乾涸,正想在廁板掃手機睇網媒找話題的時候,真係踏破鐵鞋盧覓雪,剛好被我見到一個離晒譜的專題。行山死士自從恐懼誤判後,其實佢個網媒在排名上的確愈來愈好,不過愈來愈好,不代表可以愈做愈粗疏。

中港矛盾升溫,行山網媒出來抽水撐We are Hong Kong,調轉頭就為新移民說項,紅面白面打兩門牌的確很值得我這些新鮮人學習。不過,凡事講客觀,有道理的話我無話可說。行山網媒搞了一個專題,意圖利用regression model去論證新移民沒有溝淡香港。巧威威,搬晒R squared篤幾個outliers出嚟。
整個統計模型是咁的,行山網媒將2011年區議會選舉全港412個選區中(不包括自動當選的選區),建制派的得票率與選區內居港年期7至10年的新移民人口數字作比較。就咁睇,已經想到幾個大問題。

首先,我唔知佢點定義佢心目中的建制派,只要稍有政治常識就知道安插獨立候選人是常識啦,你點定義這些偽中立?不過,這兒問題尚不夠嚴重。

高潮來了,整個模型只以2011年去考慮新移民對選票布局的效應就是一個極大問題。又是常識,不同選區人口比例也不同,比方說中半山區的選民結構當然不能同北區的同日而語。而且,每一個候選人實力都唔同,好似我那區,那個泛民候選人長期唔做嘢,我真係投唔落手。你一個線性模型,有無考慮這些部分?更大鑊係成個模型的methodology錯晒。

坊間對「溝淡論」的認知係指內地不停每日150名額以及其他途徑放人入港,換言之,這是一個長時期才能反映的過程。你就咁單純用2011年平面去run simple linear model,你點睇到個溝淡效應?

我在廁板想了3秒去改良個驗證方法,方法是不止睇一年,而係睇多幾年,將個independent variable改成新移民佔當區人口之比。這個模型都係好粗疏,仲有改善空間,但起碼睇到個時間上演變,睇到個溝淡效應,而唔係單取2011年數據胡說八道囉。雖然想起噚日大學congregation我已經俾番晒所有統計知識俾老師。這兒不講立場,也沒有講深的統計概念,我其實都係講常識而已。更深的要交俾兩位教授補充。

不知怎地,我想起佛利民講過:「愚蠢問題當然有愚蠢答案」這句話。行山死士本身已經聲名狼藉,不過你都叫做過投行分析員吧?而家淪落到要搬出偽科學拋人浪頭去做論證,你叫條街的人點敢科金贊助俾你營運落去?

作者為九十後財經傳媒人、粗讀經濟學的偽文青
https://www.facebook.com/muddydirtywater
逢周一至五刊出

No comments:

Post a Comment

電費平貴的Formula E 免費早餐: 徐家健

免費早餐: 徐家健 電費平貴的Formula E 2012-12-08 我本身係一個電車男,一年又一年親身到現場支持電動方程式賽車Formula E,係好合理嘅。說過了,合理的創新formula就是要好玩。從供應角度看,賽車與房車之間的技術轉移有互補作用,幾十年前...