
ROC curve 知多少 (二) 你要的資訊在分類圖 (Classification plots)
目錄
前言
上一期的 ROC curve 知多少 (一) 我們介紹了 ROC curve 的來由以及曲線背後所隱含的是風險分布圖。然而,只知道 ROC curve 的分布及形狀就足夠了嗎?
這期我們來看看 ROC curve 有哪些「先天不良」,以及如何改善此狀況。
我們知道的 ROC curve
讓我們快速復習一下 ROC curve。
標準的 ROC curve 其 Y 軸是敏感度 (Sensitivity) X 軸為 1- 特異度 (1-Specificity) 所組成。換言之,當我們建立好一個模型之後,只要:
1. 給定一個想要預測的 outcome (例如某疾病預測為陰性或陽性)
2. 加上已知真實的 outcome (例如已知是否真正有病或者為健康者)
3. 計算得知每個切點 (cut-point) 的敏感度及特異度
即可得到 ROC curve。
可是,只有敏感度、特異度以及 AUC (area under the curve) 的 ROC plot 所呈現的訊息真的足夠嗎 ? 對於臨床上甚關重要的切點選擇及新療法的比較,ROC curve 真的可以勝任嗎?
ROC curve 的欲言又止
ROC curve 雖然是由「各個切點」的敏感度及 1- 特異度組成,事實上我們卻鮮少從圖上知道切點的資訊。
這樣一來,對於「對切點感興趣的研究」來說,ROC curve 能提供的訊息顯然不太夠。此時,如果能在曲線上標注切點的資訊,能夠更清楚知道模型對於不同切點的準確度的變化。

此外,ROC curve 經常用來比較不同模型 (例如新舊療法) 鑑別能力的好壞,我們比照上圖在 ROC curve 上標注不同切點,便可同對二個模型同時做比較。

由上圖可知,相同切點在不同的模型其相對位置並不相同,這對於要比較不同模型切點間的表現能力時並不直觀,而且隨著圖上的切點增加, ROC curve 也會變得更複雜。
那麼,有更好的方法可以呈現模型鑑別能力的資訊嗎 ?
分類圖 (Classification plots)
分類圖 (Classification plots) 與 ROC curve 頗為相似,Y 軸是真陽性率 (True Positive Rate, TPR)、偽陽性率 (False Positive Rate, FPR) 的比例,X 軸則是各個風險閾值 (risk threshold) ,也就是我們上述所說的切點。
分類圖相較於 ROC curve 提供了更多的資訊,在視覺上可以直接觀察到切點移動時真陽性率與偽陽性率的連動變化。

分類圖的好處多多
1. 可清楚比較各切點的 TPR 和 FPR
由分類圖我們可以清楚的看出真陽性率及偽陽性率隨切點的變化。相較於 ROC curve 切點的資訊不明,分類圖則顯得相當直觀。
此外,也可在分類圖下方加註其他的統計資訊例如陽性預測值 (Positive Predictive Value, 檢驗陽性者有病的比例) 及陰性預測值 (Negative Predictive Value, 檢驗陰性者沒病的比例) 或是診斷勝算比 (diagnostic odds ratio) 等。
2. 可清楚比較各切點的不同模型的 TPR & FPR,方便找出符合臨床上所需要的切點
當我們想要比較不同模型的預測表現時 (例如新舊療法的比較),分類圖同樣可以方便地比較模型間的 TPR 及 FPR,例如下圖:

3. 避免單一曲線 (ROC curve) 比較時可能發生的誤導
過往我們都用 ROC curve 的「一條曲線」來評量模型的鑑別能力,然而這樣的單一資訊對於比較模型時就有可能會產生誤導。
這是因為一般我們都假定「較佳的模型在各個切點的敏感度和特異度都優於較差的模型」而事實上並非總是如此,例如以下圖:

由上圖可知,雖然在 ROC curve 裡 new model 看起來是較佳的模型,然而在分類圖裡不同模型的曲線實際上是有交叉的,這意味著「在不同切點時,模型表現可能會呈現相反的態勢」。
這對於臨床上的決策來說格外重要,以往我們認為最佳切點位於 ROC曲線上最接近左上角的點 (亦即有最大的敏感度和特異度)。而從臨床的角度來看,這個切點反而是「不理想的」,因為它沒有考慮到假陽性和假陰性所帶來的臨床相關成本。
因此,當切點的選擇是比較不同模型的關鍵因素時 (例如新療法是否比舊療法好),觀察切點的變化就變得十分重要,這直接影響了模型優劣的正確判斷。
4. 不同 event rate (outcome 的盛行率或發生率) 及 AUC (風險分布) 可清楚表現在圖上
分類圖亦可以表現出我們所關心的目標的發生率 (或盛行率) 以及 AUC 大小 在不同切點時對於 TPR 及 FPR 的影響,如下圖:

由上圖可知,相同切點 (例如 0.2) 在不同的 event rate 和 AUC 的情況下,TPR 和 FPR 會有巨大的差異,這也呼應了上一篇文章 ROC curve 知多少 (一) 所說的,初點設立在預測患病機率 P(X)=0.2 貌似很低,但對於罕見疾病來說卻是很高的,因為切點為 0.2 時 TPR 可能已經下降的很快 (亦即正確預測能力下幅下滑),尤其是 AUC 不高的情況下。
此外由右側圖可知,AUC 愈大則 TPR 下降的愈慢,表示模型背後的風險分布相距愈遠,鑑別能力愈強。
結語
由上述各個分類圖的應用我們可以知道,分類圖巧妙的以切點為 X軸,有效地彌補了 ROC curve 切點資訊不明的缺點,同時也清楚呈現不同 event rate 及 AUC 的大小也影響了各個切點的 TPR & FPR 的表現,這些資訊都提供了我們更準確地評量模型鑑別能力,以及比較不同模型間的好壞。下次在跑出 ROC curve 之餘,不妨再多跑個分類圖試試。
參考文獻
ROC plots showed no added value above the AUC when evaluating the performance of clinical prediction models. J Clin Epidemiol 2020; 126:207–16.