What Are We Weighting for? Propensity Score Weighting Using Overlap Weights 傾向分數的精準平衡

前言

傾向分數 (Propensity Score, PS) 近年來廣泛的應用在醫學、藥學、流行病學等領域,這是因為相較於傳統的多變量迴歸校正,PS 可以更有效地控制干擾因子對於主要效應的影響。

說起 PS 大家最先聯想到的應該都是傾向分數配對(Propensity Score Matching) 以及傾向分數加權(Propensity Score Weighting)。然而實際操作上,配對常耗費大量時間卻無法配對所有的樣本數,可能造成最終分析目標族群的偏離;而加權後也容易產生偏差、變異數大等精準度變差的問題。

一種新的加權方式:重疊加權 (Overlap Weighting, OW),能夠有效克服上述難題,一起來看看 OW 如何應用。


隨機分派與 Propensity Score 

對於研究人員來說,證實某個治療介入(如用藥)與疾病之間存在因果關係是最重要的目標,然而這樣的目標會受到各種干擾因子(如年齡性別 & 病史)的影響,而無法評估真正的效應。

控制干擾因子黃金標準是「隨機對照試驗(Randomized Controlled Trial, RCT)」,藉由隨機分派簡單而強大的作用,可確保有無治療的組別彼此擁有相似的基線特徵,只留下治療的純淨影響。因此來自 RCT 的證據能判定治療與否的療效。

可惜的是,隨機對照的方式並不總是可行的,例如我們不能隨機指派一群人而強迫他們抽菸,另一組人強迫他們不抽菸,這樣的做法明顯有違道德。

那麼這個問題該如何解決呢? 直觀上,隨機分派的用意是將所有的基線特徵隨機打散到有無治療的二組,所以我們只要想辦法讓治療與這些特徵是獨立的,就可以讓觀察性研究「貌似」隨機分派的研究了。

使用傾向分數 PS 來盡可能降低組間特性差異的方法也應運而生,我們可以說 PS 模擬了隨機分派的效果,也因此近年來使用 PS 的研究也快速增地加。


Propensity Score 的應用

PS 的本質是機率值,我們可以把 PS 想像為:將多個干擾因子(如年齡性別、教育程度、生活習慣、疾病史)通通捏在一起、轉換成一個機率值,而這個機率值愈高觀察對象就愈「傾向」得到藥物治療的機會(treatment=1)。

有了 PS 我們就可以利用這個機率值來控制多個干擾因子,常見的方法是配對法加權法

配對法(Matching)相當直觀,以抽菸為暴露的例子來說,找出有相似 PS 的兩個人,他們的各項特性也很接近,除了一個人有抽菸(暴露組)而另一個人不抽菸(對照組)之外。持續找出夠多組有相似 PS 的組合(配對),我們就能判斷抽菸對肺癌的影響。

常見的加權法為:治療權重倒數機率(Inverse Probability of Treatment Weighting, IPTW),顧名思義,是以機率值(即每個人的 PS)的倒數來做加權以達到平衡組間差異,治療組的加權值為 PS 的倒數 (即 1/PS),對照組的加權值則為 1/(1-PS),這樣的好處是允許那些基線特徵被低估的人在分析中佔有更多的權重。


Propensity Score 的限制

對於觀察性研究而言,PS 方法的目的在模擬隨機臨床試驗的三個重要屬性:臨床相關的目標人群、共變數的平衡以及評估準確度。

目標人群指的是經由相同納入與排除條件而得到的目標人群,這群人能代表平均的治療效果。共變數的平衡為有無治療的二組其特徵的相似性,這是避免偏差的重要條件。評估的準確度則表示治療和結果之間關聯性(例如某降血脂用藥對預後的影響)的準確度,精準的評估有更窄的信賴區間。

重疊性高的分布

下圖為二組治療的 PS 密度分布圖,由圖可知二者的重疊性很高(good overlap),表示基線特徵的差異很小,此時以 PS 進行干擾控制會得到很好的效果。

重疊性低的分布

然而,真實世界的資料卻不是這般理想,常常二組治療的PS 密度分布重疊性很低 (poor overlap),此時 PS 在極大與極小值附近比例的太高,表示兩組基線特徵存在過大的差異。

雖然使用配對或 IPTW的方式仍然可以有效控制干擾,但是通常會偏離目標族群,直接影響了兩組的平衡及大大的降低準確度。


PS 密度分布的重疊性很低的情況下使用 PS 配對或 IPTW 會發生什麼事呢? 我們以下圖的模擬數據為例說明:

配對方法 Matching

 

圖 A 為配對前的病患年齡與就醫次數分布圖。看得出來配對前 Tramadol 用藥(橘色點)的年齡較高就醫次數也較多。

圖 B 為配對後,深色點代表配對成功的個案,可以發現不少個案因為沒有配對成功而被排除,使得整個分析族群變小、年齡和就醫次數的範圍也變窄,這樣的族群是否還具有原本目標族群的代表性呢?


加權方法:治療權重倒數機率 Inverse Probability of Treatment Weighting, IPTW

那麼如果是 IPTW 的方法呢?

IPTW 藉由加權值的大小營造出類似隨機分派的效果。然而IPTW 的加權值很容易受到極大或極小的 PS 所影響,此時會導致評估效果出現偏差且變異較大。

為了解決評估效果準確度的問題,去除極端 PS 的方法(IPTW with trimming)可以收到不錯的效果,可是同樣也面臨樣本數被刪減、分析族群代表性的問題,此外要刪除多少比例才是合適的也是另一個問題。


Overlap Weighting 的優勢

為了解決上述的難題,2018年時 Fan Li 和他的同事發展出一種新的加權方式:重疊加權 Overlap Weighting,利用不斷降低PS分布尾端的單位權重,強調了有無治療之間特徵重疊最多的個案,因此可以在不排除任何個案的情況下,平滑地減少個案在PS分佈尾端的影響。具體的做法是:

treatment=1 (治療組) → 重新加權為 1-PS

treatment=0 (對照組) → 維持原本的 PS

上圖為個案年齡與糖尿病病史的分布圖。圖 A 為加權前,可知 ACEI用藥(橘色點)的年齡較高且糖尿病的比例也較高。圖 B 則為 OW 加權後,圓點大小表示每個樣本的權值變化。圖 C 為各基線特徵的絕對標準化均值差(Absolute Standardized Mean Difference, ASMD),值愈小表示有無治療的二組之間的差異愈小,一般來說 ASMD 小於0.1表示有良好的平衡(圖C虛線)。

由圖 C 我們可以觀察到, OW 方法在每個基線特徵都呈現完美的平衡 (ASMD=0),這對於降低評估的偏差來說格外重要,表示觀察性研究利用 OW 方法後,可以在不排除任何一個樣本的情況下,達到類似隨機分派的效果。


Overlap Weighting 的注意事項

雖然 OW 可以創造幾近完美的平衡,但如同所有其他的 PS 方法一樣,OW 的潛在缺點在於我們無法校正沒有列入考慮的個案特徵。因此,在研究之初就需要由文獻或過去的經驗裡考量所有可能的干擾因子,且試著將他們納入分析之中。

此外,如果兩組治療的基線特徵差異不大,則 OW 與 IPTW 的結果是相似的。但如果兩組治療在基線就已存在很大的差異時,則 OW 有最大的優勢,能最大程度的達到組間的平衡並且提供精確的評估條件。


我舉個栗子

Overlap Weighting 的主要建立者 Fan Li 博士在Duke 大學的網站上提供了許多 OW 的理論文獻及相關資訊,其中也包括了 SAS code 的模擬程式,包括了 binary outcome 與survival/time-to-event outcome 的例子。這裡我們簡單的呈現部分重要的語法及結果。

① 首先建立模擬資料,其中個案為 i, A 是 treatment,SBP 是干擾因子(單位為10 mmHg),Y 則為 response。

%let n = 1000000;
data temp;  
call streaminit(10); 
do i = 1 to &n.;
SBP = rand('Normal',130,13)/10; 
SBP_1 = SBP*10;

linear_termA = -8  + log(1.04)*SBP*SBP;
pA = exp(linear_termA)/(1+exp(linear_termA));
A = rand('bern',pA);

overlap = A*(1-pA) + (1-A)*pA;

*Outcome depends on those same things!;  
linear_termY = -2 +  log(0.90)*(SBP-12)*(SBP<=12 ) +
                     log(1.2)*(SBP-12)*(SBP>12 )  ;
pY_0 = exp(linear_termY)/(1+exp(linear_termY));
Y_0 = rand('bern',pY_0);
 
linear_termY = -2 +  log(0.90)*(SBP-12)*(SBP<=12 ) +
                     log(1.2)*(SBP-12)*(SBP>12 ) + 
                     log(0.90)*(SBP-12)*(SBP>12); * treatment effect; 
pY_1 = exp(linear_termY)/(1+exp(linear_termY));
Y_1 = rand('bern',pY_1);

*Observed outcome is effected by treatment;
Y = Y_0*(1-A) + Y_1*A;  

output;
end;
run;

② 以 Logistic regression 計算 PS 並且以 OW 建立加權值

proc logistic data = temp descending;  
model A =  SBP;      
output out=propmodel prob=p1;  *p1 contains P(A=1|SBP);         
run; 

data propmodel; set propmodel;
ow_weight = (A)*(1-p1) + (1-A)*p1; *definition of the overlap weights;
run;

③ 以 procedure SGPLOT 繪圖,看看 OW 方法加權前後 PS 的分布密度為何

*Unweighted distribution of propensity scores;
proc sgplot data=propmodel;
  title "Propensity distribution";
  density p1 / type=kernel group=A; 
  keylegend / location=inside position=topright;
run;
*Weighted distribution of propensity scores;
proc sgplot data=propmodel;
  title "Propensity distribution";
  density p1 / type=kernel group=A weight = ow_weight; 
  keylegend / location=inside position=topright;
run;

左圖為未加權前的 PS 密度分布,右圖則為 OW 方法加權後的 PS 密度分布,可以發現 OW 方法加權後二組的密度分布相當的接近,是一種精準的平衡(exact balance),能有效的消除干擾因子(SBP)的影響。

④ 最後就是利用加權邏輯斯迴歸(weighted logistic regression) 執行後續的風險評估。

*Fitting a weighted logistic regression with confidence intervals; 
proc genmod data = propmodel;     
class i;
model Y = A / link=logit ;  *logit link to model the odds ratio for A; 
weight ow_weight;
repeated subject=i / type=ind;  *NOTE: this line asks for the Empirical Variance which is necessary with weights;
estimate "Beta A" A 1 / exp;
run;


結語

PS方法應用於配對或 IPTW 來控制干擾因子是我們熟知的方式,過去我們常受限於研究族群的基線特徵差異過大而犧牲了樣本或加權後的偏差及變異過大而失去原本的評估效力。本文簡略介紹 Overlap weighting 的方法可以有效改善這些困擾,面對 PS 分布差異很大的族群時,不妨選擇 OW 的加權方法,除了可以免除配對資料所耗費的大量資源及時間,還可正確不偏的評估目標疾病的風險,一起來試試。


參考文獻

Thomas LE, Li F, Pencina MJ. Overlap weighting: a propensity score method that mimics attributes of a randomized clinical trial. JAMA. 2020;323(23):2417-2418.
Thomas L, Li F, Pencina M. Using propensity score methods to create target populations in observational clinical research. JAMA. 2020;323(5):
466-467.
Li F, Thomas LE, Li F. Addressing extreme propensity scores via the overlap weights. Am J Epidemiol. 2019;188(1):250-257.
Li F, Morgan KL, Zaslavsky AM. Balancing covariates via propensity score weighting. J Am Stat
Assoc. 2018;113(521):390-400.
http://www2.stat.duke.edu/~fl35/OW.html

如有任何問題和意見歡迎提出