因果革命-AI的未來 Part 3

因果推論的起源(The Genesis of Causal inference)

本文是該書閱讀的筆記與心得。

梅花機(也就是常在夜市上常看到的彈珠台)會有鐘形曲線的規律。用數學的方式解釋為:
每一個彈珠的路徑就像一連串的硬幣獨立拋擲,彈珠每次撞擊釘子時不是彈向左邊不然就是右邊,遠遠來看每次的碰撞似乎是完全隨機的向左或向右。彈珠最後落進哪個溝槽,取決與每一次撞擊釘子的所有總和。

而這一隨機過程(由許多次硬幣拋擲的過程)也產生了"中央極限定理(central limit theorem)",也就是分布機率都相同。也稱為常態分佈。一顆彈珠的路徑可能難以與測,但是一千個彈珠在此定理下的路徑卻很容易預測。

遺傳定律

哪麼這一個定理也可以用在遺傳定律上嗎?常理來說以一個群體(例如一群成年男性)的身高來說,也適用於常態分布(鐘形曲線),因為身高接近平均數的人佔大多數,只有少數人才是很高或很矮。

如果我們暫時接受這個模型,就會發覺一件令人費解的事情。延續彈珠檯的例子,鐘形曲線的寬度,取決於頂部與底部間的柱子有幾列。列數如果加倍,就會形成兩代繼承模型,下半部(第二代)的變化一定比上半部(第一代)還要多。也就是彈珠經過多一倍的柱子之後,寬度會變得越來越寬。但這樣的變化卻無法套用在男性身高上,一百年前沒有身高3米的巨人,一百年後也沒有。

因為這樣套不通,所以產生了均值回歸(regression to the mean)。這種現象生活、教育和商業中處處可見,例如棒球就是一個例子。但現在大部分的人仍然把均值回歸就是因果過程。而均值回歸產生了回歸線、斜率(稱為相關係數)。斜率1代表兩個事物完全相關,如果是零哪就是亂瞎猜測。但斜率只能預測兩個事物之間的相關性,無法呈現因果關係。因為有可能是第三個變量造成其他變量。

統計學中的因果

統計學可以包含到因果性,因為統計學更廣泛,因果關係只是相關性的極限。因為這樣統計學的這個概念就可以把心理學、人類學、醫學和社會學帶進數學處裡的領域。

因果關係在統計學中被縮減成相關性的特殊狀態,即相關係數等與1或-1,且X與Y間關係明確的狀態。因果關係只是不斷反覆出現的東西,而且無法證明它的確定性。對統計學這一類的科學而言,資料就是一切。從這個觀點來看這本書提到的"介入"和"反事實"概念不存在,科學研究也只需要因果階梯的最低一層。

哲學界的實證學派認為宇宙是人類思想的產物,科學只是這些思想的表述。因此因果關係可以解釋成在人類大腦之外的世界中產生的客觀過程,不具任何科學意義。有意義的思想只能表現出觀察結果的型態。

虛假的相關性(spurious correlation)

這一類觀念需要借助因果關係才能理解,而我們很容易找到一些相關不合理的相關性。例如一個國家的人均巧克力食用量,與該國諾貝爾獎得獎數明顯相關。以這個案例來看是不合理的,即使從數據上看真的成正相關。這是由於兩個異質體合併(也就是合併資料)時,就會出現這樣的虛假的相關性。

透過因果性觀點 — 我們可以在某些狀況下要得出正確的結果,需要知道何時應該劃分資料何時合併資料。因果推論的邏輯也可以告訴我們應該相信哪一方。

因果階梯的橋樑

我們只要知道因果量,就能以簡單的圖形法則預測資料間的相關。此法則搭起一道"因果與機率"之間的橋樑,也是跨越因果階梯第一層到第二層之間的障礙的第一道關卡。這道橋樑建立後,就可以從第二層往回走,由資料中的相關(第一層)得知隱藏的因果量。方法是解代數方程式,因為因果量是未知的,需要計算。但我們需要把"相關不必然意味著因果"的思維,改成"某些相關確實意味著因果"。

因果路徑圖是連結兩個變量間的路徑,在乘於經過的路徑係數,而如果該路徑如果沒有箭頭則指因果效應為零,如果有箭頭又有路徑係數則能指出因果效應的大小。雖然這是理想的做法,但是有時候沒有人可以完全清楚變量之間的關係脈絡。所以我們需要先假設某些因果關係,再找出變量之間的預測相關。如果預測相關性與資料牴觸,就證明假設的關係不正確。

有時候我們不用知道要研究的變量之間的所有因果關係,只有部分的資訊或許也可能得出某些因果結論。這個在作者在本書的第一章的結論也提及到: 如果只有在因果階梯第一層蒐集到的資料,就不可能解答第二層的問題。而這是把兩種語言結合在一起,分別是圖形語言與資料語言。定性(也就是圖形中的箭頭)和定量的資料資訊兩者結合。

因果推論的路徑分析方法對於統計學的"套裝"方法沒有幫助,因為我們需要有假設,還要畫出多個因果順序的圖形。執行路徑分析需要科學思考,因果推論也是如此。但統計學不鼓勵科學思考,而是一"套裝(一組SOP)"程序取代。大多的人做事都比較偏好以固定方法計算資料,不喜歡挑戰自己的科學知識方法。

統計學或許可以看成研究資料歸納方法的學科。但因果分析的重點絕對不是資料,進行因果分析之前,我們必須了解產生資料的過程,獲取資料中沒有的知識。統計學的大師 羅納德.艾爾默.費學 說道: 去除統計學中的因果關係之後,就只剩下資料歸納了。

貝氏連結將主觀機率帶進統計學界

因果關係和相關及主流統計學大多數的工具不同,因果分析要求使用者提出主觀意見。使用者必須繪製因果圖,呈現自己對於要探討的因果過程的想法。如果能呈現該專業領域(如遺傳學、心理學、經濟學)所有研究者的共同想法更好。使用者必須放棄長久以來統計學為了"客觀"而客觀的教條。以因果關係而言,明智採取少許主觀,要比完全的客觀更能幫助我們了解這個世界。

1834年3月15日倫敦統計學會創立以來,"客觀"一直是統計學家的最高目標。倫敦統計學會的成立章程指出,在任何狀況下,資料都比意見及詮釋更加重要。資料是客觀的,意見是主觀的。這就像要求人只有完全的理性,而沒有感性,這是不太可能的。

雖然絕大部分的統計學工具追求完全的客觀,但還是有例外: 貝氏分析。貝氏分析的標準規範 — "以往的想法 + 新證據 →修正想法"。以IT領域來說,垃圾郵件系統採用的就是貝氏分析。貝氏統計讓我們以客觀方式結合結合證據與以往的知識(或主觀想法),形成新的想法,從而修改下次的email是不是垃圾郵件的結果預測。另外還有許多例子證明,資料量增加時,以往想法的影響逐漸縮小,最後只剩下客觀結論。

可惜的是,主流統計學界接受貝氏主觀性,並沒有幫助統計學界接受因果主觀性,也就是繪製因果路徑圖所需的主觀。為什麼會這樣?答案在於巨大的語言障礙。表達主觀假設時,貝氏統計學家仍然採用機率語言。另一方面,哪入因果推論的假設則須更豐富的語言(例如圖形),但統計學界的貝氏派與頻率派都不懂這類的語言。

另外,即使資料量增加,因果資訊中的主觀成分也不一定會隨著時間消失。相信不同因果圖的兩個人可以分析相同的資料,但永遠不會獲得相同的結論,無論資料量多大都一樣。

因果推論在一個相當重要的面向是客觀的:

只要兩個人對假設達成共識,它就能提供完全客觀的方法來詮釋新證據(或資料),這個性質和貝氏推論相同。

--

--

運用"雲端服務"加速企業的數位轉型願景
運用"雲端服務"加速企業的數位轉型願景

Written by 運用"雲端服務"加速企業的數位轉型願景

我們協助您駕馭名為"雲端運算"的怪獸,馴服它為您所用。諮詢請來信jason.kao@suros.com.tw. https://facebook.com/jason.kao.for.cloud

No responses yet