因果革命-AI的未來 Part 5
干擾與去干擾(Confounding and Deconfounding)
現代實驗科學的重要精神: 對照實驗。也就是兩條件完全相同的人,其中一組給予新的處理方式,另一組(稱為對照組)則不做任何改變或照舊方式處理。使用這種方式的原因在於同一組人,我們不可能回到過去,再用不同的方式處理相同的人或群體,所以只能退而求其次採用對照實驗。
但此種方式仍有缺點,也就是這個世上沒有完全相同的人或群體,有很高的可能某個變項同時影響接受處理者與實驗的結果,進而出現干擾偏差。干擾因子有時很明顯,有時不明顯,作用如同"潛藏的第三變項"。用下圖的因果圖可以容易看出干擾因子。下圖中,分叉中間的變項Z,就是X與Y的干擾因子。
上圖中,X →Y真正的因果效應,與X←Z →Y分叉在X和Y間造成的假相關混合在一起。例如以測試某種藥物,兩組人若是不同的年齡層,哪麼年齡就是干擾因子,也就是潛藏的第三變項。如果我們沒有年齡資料,就無法分辨真正的效果與偽效果。
不過反過來講也對。如果我們真的有第三個變項的資料,就很容易分辨真實和偽效果。延續剛剛的藥物測試案例。如果干擾變項Z是年齡,就可分別比較處裡和每個年齡層的對照組。接著再依據每個年齡層的在目標群體中的百分比,計算出平均效果。統計學家都很熟悉這種補償方式。稱為以Z執行調整(adjusting for z)或Z執行對照(controlling for z)。
但統計學家過度重視,但也同時過度輕視以可能干擾因子執行調整。過度重視是因為統計學家用以執行對照的變項經常超過需求,連不應該對照的變項也照樣對照。可以對照的項目越多,研究報告看起來就越厲害,至少看起來很厲害。對照讓研究報告感覺具體又精確。但有時對照變項太多了,最後連打算量測的變項都變成對照變項。
統計學家一向分不清楚應該和不應該對照的變項,因此典型作法就是:
舉凡可量測的變項,都拿來對照。
現行絕大多數研究都採行這種做法。這個程序很簡便,但既浪費又容易出錯。統計學家就算正確執行對照,也不願意去探討因果性。所以作者在本章中所要傳達的是:
如果在因果圖中找出足夠的去干擾因子。蒐集這些因子的資料,再以它們執行適當調整,就可以大膽表示已經計算出X →Y的因果效應(當然前提是因果圖有充分的科學根據)。
統計學家的"標準去干擾"方法大不相同,原因依據則是費雪提倡最力的RCT(隨機對照實驗)。作者說費雪的理論沒影錯,但所持的理由不正確。RCT確實實很棒的發明,但自費雪以降的統計學家都無法證明RCT確實可產出想要的結果。他們沒有適當的語言描述要尋找甚麼 — 也就是X對Y的因果效應。這一章會說明,從因果圖的觀點說明,RCT究竟為何能協助我們估計X →Y的因果效應,而且不受偏差感干擾的影響。了解RCT為什麼能達成目標後,就不需要把RCT放在首位,視為因果分析的最佳標準,認為其他方法都應該以它為藍本。其實正好相反,我們將會了解RCT這個"最佳準則"其實源自更基本的原理。
因果圖可讓我們把焦點從干擾因子,轉移到去干擾因子。干擾因子造成問題,去干擾因子則能解決問題。這兩種因子可能重疊,但不必定如此。只要有足夠的去干擾因子資料,即使忽略某些(甚至所有)干擾因子,都不會有影響。
因果方式藉由這樣轉移焦點,讓我們跳脫費學式的實驗,從非試驗性研究推論因果效應。它讓我們決定應該對照那些變項,把它當成去干擾因子。這個問題一直困擾著理論和實務統計學家,也是幾十年來統計學領域最大的弱點。最主要的原因是它和資料或統計學無關。干擾是因果概念,屬於因果階梯的第二層。
1990年代問世的圖形化方法完完全打亂了干擾問題,後門準則(back-door criterion)法尤其如此。後門準則法明確界定因果圖中的那些變項是去干擾因子,如果研究者能取得這些變項的資料,就可以依這些變項去執行調整,不須實際介入就能預測介入結果。
在某些狀況下,我們即使沒有充足的去干擾因子資料,仍可執行對照,去除干擾。在這類狀況下,我們使用不同的調整公式(不是只能搭配後門準則使用的傳統公式),同樣能去除所有干擾。
統計學的樣態就是樣本數通常很小、同質性很高。這樣的問題造成一個普遍的想法 — 觀察性研究(由實驗對象選擇要接受的處裡)永遠無法解釋因果主張。
隨機對照實驗的有效性
隨機標準是以前的時代可能是最佳標準,但可能會讓以前的統計學家不舒服,因為科學(統計學)也會受到機率擺布。現在大家都知道,問題如果正確,即使答案不正確,也比問題不正確但答案很確定要好很多。如果提出的問題不正確,就永遠得不到需要的答案。如果提出的問題正確,即使獲得的答案偶而不對,問題也小得多。我們仍然可以估計答案中有多少不確定性,因為不確定性來自隨機化程序(已知),而不是來自其他因素(未知)。
隨機化有兩個效益:
- 消除干擾偏差
- 量化不確定性
隨機化可消除原有的干擾因子,而且不會造成新的干擾因子。如果知道所有可能干擾因子,有方法是能測量這些干擾因子,再以它們執行調整。隨機化最大的優點就是能切斷所有與隨機化變項間的連結,包括我們不知道或無法量測的連結。
干擾的新典範
干擾如何定義?又該如何定義?在已經知道因果邏輯的狀況下,第二個問題比較容易回答。我們觀察到的量,是已知處理某個結果的條件機率P(Y|X)。我們想對掌控這個世界的神提出問題,與X和Y間的因果關係有關,這個關係以介入機率P(Y|do(X))表示。因此干擾的定義應該就是造成兩者不一致的因素:
P(Y|X) 不等於 P(Y|do(X))。
干擾不是統計學概念,它是我們想評估的對象(因果效應)和我們以統計方法實際評估的對象兩者之間的差異。如果我們無法以數學表達想評估的對象,就無法造成差異的因素。
"干擾"概念的演變圍繞這兩個相關的概念,分別是不相容與缺乏第三變項。這兩個概念都無法形式化。談到相容性時,在對照實驗中,我們說正常與對照組的所有相關條件應該完全相同。但這樣一來,我們又必須處理屬性是否相關。我們怎麼知道某個屬性在某個研究中是相關屬性?我們或許可以說這顯而易見或是常識,但一代代科學家都無法以形式表達常識,機器人也無法依靠我們的常識來做出正確的行動。
第三變項定義同樣模擬兩可。干擾因子是否應該是X與Y的共同原因,或是只與其中之一相關即可?現在我們可以參照因果圖。檢視有哪些變項造成P(X|Y)和P(X|do(Y))之間的差異。但由於缺乏因果圖或do運算子,幾個世代的統計學家只能勉強使用代理定義,但這些定義都無法讓人滿意。
代理定義
- 敘述性定義 — “干擾因子是同時與X和Y的相關變項”
- 程序性定義 — 試圖以統計學檢定呈顯干擾因子的特性
第二種定義是統計學家喜歡的,因為他們偏好不需借助模型就可直接對資料進行檢定。程序性定義也稱為不可崩潰性(noncollapsibility)。這個個定義來自挪威流行病學家史溫.赫恩伯格的論文:
從形式上來說,我們可以比較原始相對風險和以可能干擾因子調整後的相對風險。差異代表干擾,在此種狀況下,我們應該採用調整後的風險評估。如果沒有差異或差異可以忽略,則干擾不會造成問題,應該採用原始估計。
這種方式現在依然被某些應用統計學群體視為圭臬。
最常見的敘述性定義已經演變一段時間。這個定義一共有三個部分。X(處理)和Y(結果)的干擾因子是變項Z。此變項:
- 在群體中與X相關
- 在未接受X處理的事物中與Y相關
- Z不應該位於X和Y間的因果路徑上
第一與二的名詞都是統計學詞彙,尤其是Z只與X和Y相關(但不是原因)。從因果圖的觀點來看,這只是把Z與Y的相關中,源自X對Y的因果效應排除。換句話說,無論Z對X有甚麼影響,Z對Y都有影響。這是用一個方法來表達排除,就是只看對照組(x=0),以X執行條件化。統計學詞彙中缺乏"影響"這個詞,所以沒有其他方法可以表達。用文字來看很難懂,但如果以本文的第一張圖"最基本的干擾"來查看就可以指出: Y與Z相關,而且路徑沒有經過X。
干擾因子的流行病學經典定義有其他缺陷,如以下兩個例子:
在範例(i)中,Z滿足條件"在群體中與X相關"與"在未接受X處理的事物中與Y相關",但不是干擾因子,而應該是中介變項。中介變項是說明X對Y的因果效應變項。如果我們想找出X對Y的因果效應,以Z執行對照就會造成問題。如果只看正常組與對照組中Z=0的受試者,X的影響就會完全被掩蓋,導致我們斷定X對Y沒有影響,因為Z必須改變,X才會產生作用。
範例(ii)中,Z是中介變項M的代理。實際因果變項無法測定時,統計學家經常會以代理執行對照。例如,參加政黨經常被當成政治信仰的代理。因為Z不是M的正確測定值,因此如果我們以Z執行對照,可能會有一些X對Y的影響"洩漏過去"。然而以Z執行對照依然不正確。盡管以M執行對照時偏差可能比較小,但依然會有偏差。
do運算子與後門準則
連結是資訊從起點X傳送到通點Y的管道,而資訊的傳送包含因果和非因果兩個方向。
事實上,非因果路徑正式干擾的源頭。作者把干擾定義為"使P(Y|do(X))與P(Y|X)不同的所有因素"。do運算子消去指向X的所有箭頭,使所有關於X的資訊都無法朝非因果方向流動。隨機化也有相同的效果。如果選擇正確的變項,執行統計調整也會如此。
作者在第三章中介紹防止資訊通過某個連接的三個規則
(a) 在鏈A →B →C中,以B執行對照,可防止關於A的資訊傳送到C,反之亦然
(b)同樣地,在分叉或干擾連結A←B →C中,以B執行對照,可防止關於A的資訊傳送到C,反之亦然
(c)最後,在衝突A →B←C中,規則正好相反。變項A和C起初獨立,因此關於A的資訊不會透漏關於C的資訊。但如果以B執行對照,在自圓其說的效應下,資訊將開始流過這個管道
(d)以某個變項的後代(或代理)執行對照,如同以這個變項本身執行"部分"對照。以中介變項的後代執行對照可關閉管道,以衝突的後代執行對照可開啟管道。
哪麼如果管道更長、連接更多的話又如何?例如:
A←B←C →D←E →F →G←H →I →J