因果革命-AI的未來 Part 5

干擾與去干擾(Confounding and Deconfounding)

Jan 16, 2025

現代實驗科學的重要精神: 對照實驗。也就是兩條件完全相同的人，其中一組給予新的處理方式，另一組(稱為對照組)則不做任何改變或照舊方式處理。使用這種方式的原因在於同一組人，我們不可能回到過去，再用不同的方式處理相同的人或群體，所以只能退而求其次採用對照實驗。

但此種方式仍有缺點，也就是這個世上沒有完全相同的人或群體，有很高的可能某個變項同時影響接受處理者與實驗的結果，進而出現干擾偏差。干擾因子有時很明顯，有時不明顯，作用如同"潛藏的第三變項"。用下圖的因果圖可以容易看出干擾因子。下圖中，分叉中間的變項Z，就是X與Y的干擾因子。

上圖中，X →Y真正的因果效應，與X←Z →Y分叉在X和Y間造成的假相關混合在一起。例如以測試某種藥物，兩組人若是不同的年齡層，哪麼年齡就是干擾因子，也就是潛藏的第三變項。如果我們沒有年齡資料，就無法分辨真正的效果與偽效果。

不過反過來講也對。如果我們真的有第三個變項的資料，就很容易分辨真實和偽效果。延續剛剛的藥物測試案例。如果干擾變項Z是年齡，就可分別比較處裡和每個年齡層的對照組。接著再依據每個年齡層的在目標群體中的百分比，計算出平均效果。統計學家都很熟悉這種補償方式。稱為以Z執行調整(adjusting for z)或Z執行對照(controlling for z)。

但統計學家過度重視，但也同時過度輕視以可能干擾因子執行調整。過度重視是因為統計學家用以執行對照的變項經常超過需求，連不應該對照的變項也照樣對照。可以對照的項目越多，研究報告看起來就越厲害，至少看起來很厲害。對照讓研究報告感覺具體又精確。但有時對照變項太多了，最後連打算量測的變項都變成對照變項。

統計學家一向分不清楚應該和不應該對照的變項，因此典型作法就是：
舉凡可量測的變項，都拿來對照。

現行絕大多數研究都採行這種做法。這個程序很簡便，但既浪費又容易出錯。統計學家就算正確執行對照，也不願意去探討因果性。所以作者在本章中所要傳達的是:
如果在因果圖中找出足夠的去干擾因子。蒐集這些因子的資料，再以它們執行適當調整，就可以大膽表示已經計算出X →Y的因果效應(當然前提是因果圖有充分的科學根據)。

統計學家的"標準去干擾"方法大不相同，原因依據則是費雪提倡最力的RCT(隨機對照實驗)。作者說費雪的理論沒影錯，但所持的理由不正確。RCT確實實很棒的發明，但自費雪以降的統計學家都無法證明RCT確實可產出想要的結果。他們沒有適當的語言描述要尋找甚麼 — 也就是X對Y的因果效應。這一章會說明，從因果圖的觀點說明，RCT究竟為何能協助我們估計X →Y的因果效應，而且不受偏差感干擾的影響。了解RCT為什麼能達成目標後，就不需要把RCT放在首位，視為因果分析的最佳標準，認為其他方法都應該以它為藍本。其實正好相反，我們將會了解RCT這個"最佳準則"其實源自更基本的原理。

因果圖可讓我們把焦點從干擾因子，轉移到去干擾因子。干擾因子造成問題，去干擾因子則能解決問題。這兩種因子可能重疊，但不必定如此。只要有足夠的去干擾因子資料，即使忽略某些(甚至所有)干擾因子，都不會有影響。

因果方式藉由這樣轉移焦點，讓我們跳脫費學式的實驗，從非試驗性研究推論因果效應。它讓我們決定應該對照那些變項，把它當成去干擾因子。這個問題一直困擾著理論和實務統計學家，也是幾十年來統計學領域最大的弱點。最主要的原因是它和資料或統計學無關。干擾是因果概念，屬於因果階梯的第二層。

1990年代問世的圖形化方法完完全打亂了干擾問題，後門準則(back-door criterion)法尤其如此。後門準則法明確界定因果圖中的那些變項是去干擾因子，如果研究者能取得這些變項的資料，就可以依這些變項去執行調整，不須實際介入就能預測介入結果。

在某些狀況下，我們即使沒有充足的去干擾因子資料，仍可執行對照，去除干擾。在這類狀況下，我們使用不同的調整公式(不是只能搭配後門準則使用的傳統公式)，同樣能去除所有干擾。

統計學的樣態就是樣本數通常很小、同質性很高。這樣的問題造成一個普遍的想法 — 觀察性研究(由實驗對象選擇要接受的處裡)永遠無法解釋因果主張。

隨機對照實驗的有效性

隨機標準是以前的時代可能是最佳標準，但可能會讓以前的統計學家不舒服，因為科學(統計學)也會受到機率擺布。現在大家都知道，問題如果正確，即使答案不正確，也比問題不正確但答案很確定要好很多。如果提出的問題不正確，就永遠得不到需要的答案。如果提出的問題正確，即使獲得的答案偶而不對，問題也小得多。我們仍然可以估計答案中有多少不確定性，因為不確定性來自隨機化程序(已知)，而不是來自其他因素(未知)。

隨機化有兩個效益:

消除干擾偏差
量化不確定性

隨機化可消除原有的干擾因子，而且不會造成新的干擾因子。如果知道所有可能干擾因子，有方法是能測量這些干擾因子，再以它們執行調整。隨機化最大的優點就是能切斷所有與隨機化變項間的連結，包括我們不知道或無法量測的連結。

干擾的新典範

干擾如何定義?又該如何定義?在已經知道因果邏輯的狀況下，第二個問題比較容易回答。我們觀察到的量，是已知處理某個結果的條件機率P(Y|X)。我們想對掌控這個世界的神提出問題，與X和Y間的因果關係有關，這個關係以介入機率P(Y|do(X))表示。因此干擾的定義應該就是造成兩者不一致的因素:
P(Y|X) 不等於 P(Y|do(X))。

干擾不是統計學概念，它是我們想評估的對象(因果效應)和我們以統計方法實際評估的對象兩者之間的差異。如果我們無法以數學表達想評估的對象，就無法造成差異的因素。

"干擾"概念的演變圍繞這兩個相關的概念，分別是不相容與缺乏第三變項。這兩個概念都無法形式化。談到相容性時，在對照實驗中，我們說正常與對照組的所有相關條件應該完全相同。但這樣一來，我們又必須處理屬性是否相關。我們怎麼知道某個屬性在某個研究中是相關屬性?我們或許可以說這顯而易見或是常識，但一代代科學家都無法以形式表達常識，機器人也無法依靠我們的常識來做出正確的行動。

第三變項定義同樣模擬兩可。干擾因子是否應該是X與Y的共同原因，或是只與其中之一相關即可?現在我們可以參照因果圖。檢視有哪些變項造成P(X|Y)和P(X|do(Y))之間的差異。但由於缺乏因果圖或do運算子，幾個世代的統計學家只能勉強使用代理定義，但這些定義都無法讓人滿意。

代理定義

敘述性定義 — “干擾因子是同時與X和Y的相關變項”
程序性定義 — 試圖以統計學檢定呈顯干擾因子的特性

第二種定義是統計學家喜歡的，因為他們偏好不需借助模型就可直接對資料進行檢定。程序性定義也稱為不可崩潰性(noncollapsibility)。這個個定義來自挪威流行病學家史溫.赫恩伯格的論文:

從形式上來說，我們可以比較原始相對風險和以可能干擾因子調整後的相對風險。差異代表干擾，在此種狀況下，我們應該採用調整後的風險評估。如果沒有差異或差異可以忽略，則干擾不會造成問題，應該採用原始估計。

這種方式現在依然被某些應用統計學群體視為圭臬。

最常見的敘述性定義已經演變一段時間。這個定義一共有三個部分。X(處理)和Y(結果)的干擾因子是變項Z。此變項:

在群體中與X相關
在未接受X處理的事物中與Y相關
Z不應該位於X和Y間的因果路徑上

第一與二的名詞都是統計學詞彙，尤其是Z只與X和Y相關(但不是原因)。從因果圖的觀點來看，這只是把Z與Y的相關中，源自X對Y的因果效應排除。換句話說，無論Z對X有甚麼影響，Z對Y都有影響。這是用一個方法來表達排除，就是只看對照組(x=0)，以X執行條件化。統計學詞彙中缺乏"影響"這個詞，所以沒有其他方法可以表達。用文字來看很難懂，但如果以本文的第一張圖"最基本的干擾"來查看就可以指出: Y與Z相關，而且路徑沒有經過X。

干擾因子的流行病學經典定義有其他缺陷，如以下兩個例子:

在範例(i)中，Z滿足條件"在群體中與X相關"與"在未接受X處理的事物中與Y相關"，但不是干擾因子，而應該是中介變項。中介變項是說明X對Y的因果效應變項。如果我們想找出X對Y的因果效應，以Z執行對照就會造成問題。如果只看正常組與對照組中Z=0的受試者，X的影響就會完全被掩蓋，導致我們斷定X對Y沒有影響，因為Z必須改變，X才會產生作用。

範例(ii)中，Z是中介變項M的代理。實際因果變項無法測定時，統計學家經常會以代理執行對照。例如，參加政黨經常被當成政治信仰的代理。因為Z不是M的正確測定值，因此如果我們以Z執行對照，可能會有一些X對Y的影響"洩漏過去"。然而以Z執行對照依然不正確。盡管以M執行對照時偏差可能比較小，但依然會有偏差。

do運算子與後門準則

連結是資訊從起點X傳送到通點Y的管道，而資訊的傳送包含因果和非因果兩個方向。

事實上，非因果路徑正式干擾的源頭。作者把干擾定義為"使P(Y|do(X))與P(Y|X)不同的所有因素"。do運算子消去指向X的所有箭頭，使所有關於X的資訊都無法朝非因果方向流動。隨機化也有相同的效果。如果選擇正確的變項，執行統計調整也會如此。

作者在第三章中介紹防止資訊通過某個連接的三個規則

(a) 在鏈A →B →C中，以B執行對照，可防止關於A的資訊傳送到C，反之亦然

(b)同樣地，在分叉或干擾連結A←B →C中，以B執行對照，可防止關於A的資訊傳送到C，反之亦然

(c)最後，在衝突A →B←C中，規則正好相反。變項A和C起初獨立，因此關於A的資訊不會透漏關於C的資訊。但如果以B執行對照，在自圓其說的效應下，資訊將開始流過這個管道

(d)以某個變項的後代(或代理)執行對照，如同以這個變項本身執行"部分"對照。以中介變項的後代執行對照可關閉管道，以衝突的後代執行對照可開啟管道。

哪麼如果管道更長、連接更多的話又如何?例如:
A←B←C →D←E →F →G←H →I →J