因果革命-AI的未來 Part 2
因果階梯(The Ladder of Causation)
本文是該書閱讀的筆記與心得。
- 人類在演化初期就知道,這個世界不只只有單純的事實(也就是資料)。這些事實是由錯綜複查的因果關係彼此相連
- 構成知識主體的要素是因果解釋,而不是單純的事實。而因果解釋則應該是AI的基礎。
- 人類由資料處理者轉變成解釋提供者的過程不是漸進式,而是跳躍式的,需要外力協助。
以上三點就是因果階梯的特性 : 機器不可能從原始資料特出解釋,它需要助力。
因果的三個層級
因果學習者/機器學習必須有的三種不同層級的認知能力:
- 觀察: 探知環境中的規律/模式
- 實行: 預測"刻意改變環境"的成果
- 想像(反事實): 對發生的事進行回顧。
以上三個層級分別對應三層的因果階梯:
第一層:關聯(這是統計學擅長的事)
- 行動: 如果我看到甚麼….會怎麼樣?
- 這些變量的關係甚麼?看到X會不會改變我對Y的信任度
第二層: 介入
- 行動: 進行、介入
- 如果我做…會怎麼樣?怎麼做?
- 如果我做X的話,Y會怎麼樣? 我要怎麼讓Y發生
第三層: 反事實
- 行動: 想像、回想、理解
- 如果我當時做…會怎麼樣?為什麼?
- 造成Y的原因是X嗎?如果X沒有發生會怎麼樣?如果當時回應的方式不一樣會怎麼樣?
作者指出統計學乃至於現行的AI只有到達因果階梯的第一層。因為強AI的目標是打造具備人類智慧的機器,能和人類交談、指導人類。深度學習只是具備超強能力,但不具備智慧。兩者的區別在於:
是否具備現實世界模型
機器學習演算法(包括具備深層的類神經網路)絕大多數以關聯模式運作。這一類的演算法是由一連串的觀察結果來主導,演算法試圖找出吻合這些結果的函數,這種方式跟統計學試圖找出一組資料的一條線的相同。只是現代的這些機器學習讓函數變得更複雜,但原始資料依然是主導擬合過程的主導因素。由於有更多的原始資料(也就是大數據),資料變得越來越精確(而非取樣),但沒有因超演化加速而受益。
因此,在因果階梯的第一層是缺乏彈性與適應性。所以產生了第二層 — 需要介入某些事物。沒有因果模型,我們就無法從第一層登到第二層。因為深度學習(只有第一層資料)永遠無法回答關於介入事物的問題,因為這麼做違反機器學習的規則(try and error)。
推理(論)關於介入的一切,是因果階梯的重要步驟,但推理(論)仍無法回答所有要探討的問題。所以我們需要登到因果階梯的最高階 — 反事實。因為反事實要回答的是跟已發生的事情(也就是資料)不一樣的狀況。
反事實跟資料(事實)之間的關係格外錯綜複雜,因為就定義而言,資料就事實,無法告訴我們某些已知事實消失之後,反事實或想像世界可能發生的狀況。而人類的這種反事實(想像)的認知能力讓人與動物還有不具備因果模型的AI有所不同。
機率與因果
哲學家試圖運用"機率提高"概念,以機率來定義因果關係。也就是如果X提高Y的機率,就可以說是X是Y的原因。這個方式深入我們的直覺之中,所以我們會認為提高機率可以從第一層登上第二層。但這樣會有問題產生,原因是因為哲學家大都以條件機率來呈現"X使Y的機率提高",寫成P(Y | X) > P(Y)。但仔細來看,這樣的解釋是錯誤的,因為"提高"這個動作是因果的概念,代表X對Y有因果影響力。另一方面P(Y | X) > P(Y)這個表示式只提到觀察,代表"如果我們看見X,則Y的機率提高"。但Y的機率提高可能還有其他的原因,包括Y才是X的原因,或是其他的變項Z才是X與Y的共同原因。
P(Y | X )等表示式提出的機率位於因果階梯的第一層,永遠無法(靠本身)回答第二層或第三層的查詢。試圖以第一層來"定義"因果關係一定會失敗。因為定義需要簡化,而簡化是一層的工作而不是上層。
機率提高準則的問題
X與Y的共同原因(或干擾因子),是哲學家頭痛的問題。如果把機率提高準則套用在表面事實,由於尿布銷售的增加導致酒類的銷售增加,哪我們就會斷應尿布銷售與酒類銷售相關。但我們也可以解釋成因為最近幾個月有大型賽事(干擾因子),所以才導致酒類銷售增加。
哲學家努力依據干擾因子(也可以說是背景因素)來修正定義,產生準則P(Y | X, K=k) > P(Y | K=k)。其中K是某些背景變量。事實上,如果我們把大型賽事當成背景變量,這個準則就會適用酒類銷售。
但問題來了,那些變量必須納入背景變項K,並當成修正依據?專家們一直無法回答這些問題,因為共同創造也是因果概念,所以無法寫成機率公式。