
Sample Size of Single-stage Design in Phase II Clinical Trial 單階段臨床試驗的樣本數打哪來
前言
在第二期臨床試驗中,主要目的是經由試驗來決定新藥是否有足夠的療效,值得進一步的研究與更大範圍的追蹤 (也是第三期的臨床試驗)。
另一方面,決定樣本數永遠是重要的一環,尤其對於癌症新藥的臨床試驗來說,樣本數的設定更是錙銖必較。這是因為嚴重疾病的受試者不一定能順利招募,要累積到足夠的人數,往往要花費很多時間,較少的樣本數可加速試驗的進行且節省試驗耗費的人力與資源。
因此,單臂、單階段 (single-arm single-stage) 的設計便經常應用在第二期的臨床試驗上。本文我們就單階段設計的臨床試驗討論樣本數如何設定,才能兼顧試驗的檢定能力,又能獲得最小的樣本數。
單階段設計
單臂、單階段設計的臨床試驗常用於新藥研發的初期階段 (例如第二期臨床試驗)。單臂指的是只有單一個治療組,而單階段則是整個試驗只會招募一群(即一批次)受試者。
這樣設計的優點在於簡單而容易執行,研究人員只要預先決定好達到療效的人數比例,以及決定好試驗的假設檢定錯誤判斷風險 (即型一型二錯誤),便可預先知道試驗所需要的最低樣本數是多少。
參數的設定
對於腫瘤新藥研究的試驗來說,經常由「腫瘤緩解者佔所有受者的比例」來評估療效,也就是說,腫瘤緩解的人數比例愈高表示該新藥的療效愈好。
在試驗執行前,研究人員必須先決定療效的最低標準,也就是所謂的最大療效比例 P0 (Largest response proportion)。如果試驗的療效比例低於此標準,則表示這個藥物治療不足以繼續研發。
對於抗癌新藥來說,P0 通常會設定在 0.1。
相對的,研究人員也必須決定最小療效比例 P1 (Smallest response proportion),這表示大於此比例的藥物是值得後續研究的。
對於抗癌新藥而言,P1 可能會設定為 0.3。
因此,我們可以建立一個假設檢定是:
H0:P ≤ P0
H1:P ≥ P1
P 為族群中對於新藥的真實療效比例。
除此之外,我們還需要設定錯誤判斷的風險。型一錯誤機率 (α) 代表我們錯誤地拒絕 H0 的機率 (實際上H0 的假設是對的),也就是說試驗並沒有足夠的療效,我們卻宣稱有療效的犯錯機率。
型二錯誤機率 (β) 則為我們錯誤地拒絕 H1 的機率 (實際上 H1 的假設是對的)。一般來說會以檢力 1-β 的方式呈現,也就是試驗沒有足夠的療效,而我們也正確的指出來。
不同的試驗會設定不同的 α 與 β,一般 α 會小於 β,這是因為對於新藥開發來說,站在保護使用者安全的立場,宣稱藥物有效會比無效有更嚴格的標準,避免藥物其實無效而平白造成使用者的傷害。
α 常會設定為 0.05,有些試驗則設定為 0.01,而 1-β 則通常設定為 0.8 或 0.9。
樣本數的計算 (exact binomial tests)
目前我們常用的單階段計的樣本數計算方式,最早在 1982 年由美國統計學家 Thomas R. Fleming 所提出,並且在2001年由英國統計家 R. P. A’Hern 所修正。
對於第二期單階段設計的臨床試驗,療效比例由「具有療效者」及「所有受試者」的比例所組成。因此,有多少受試者具有療效、是否大於假設檢定之判定切點 cut-off 便至關重要。
我們可以說:
對於假設檢定來說,
當具有療效者人數大於切點 cut-off 時, P ≤ P0 便不成立(亦即 P ≥ P1),此時有足夠的證據說明新藥的療效是存在的,可進行後續的研究;
反之,則說明療效有限 (P ≤ P0),試驗不值得繼續發展。
R. P. A’Hern 的切點的計算公式為:
C= 假設檢定之判定切點
N= 試驗所需的受試者人數
P0= 最大療效比例
P1= 最小療效比例
Zα= 標準常態分布α之Z值
Zβ= 標準常態分布β之Z值
由公式可知,切點的計算與 P0 及 P1與P0 的療效差異 (P1-P0) 有關,同時也考慮了型一與型二錯誤率之下的 Z 值。
因此,藉由二項式分布的機率,我們可以精確的計算出符合設定參數的條件下,需要多少樣本數以及假設檢定的切點。擷取部分結果如下:
(ref: R. P. A’Hern , Statist. Med. 2001; 20:859-886)
分子為:多少樣本具有療效
分母為:最小需要多少樣本
由上表可知,想要宣稱的療效比例(即P1) 與 P0的差異愈接近的話,就會需要愈多的樣本數,這符合 effect size的概念。
此外,α 與 β 設定的愈小的話,表示試驗的條件愈嚴格,亦需要較多的樣本數。
我舉個栗子
假設現在有個第二期臨床試驗,想知道抗癌新藥是否能有效的治療腫瘤。研究人員由過去的研究可知目前標準治療的療效比例是 0.1,而預期新藥的療效比例能夠達到 0.3。
而此單臂單階段的臨床試驗,α 設定為0.05,β 為 0.9。
由上述 A’Hern 的 table 可知,樣本數設定為 33 即可,而其中具有療效的受試者大於或等於 7 就可以宣稱新藥是具有療效的,可繼續做後續的研究與追蹤。
結語
樣本數的設定關乎整個臨床試驗執行的時間,以及許多人力物力成本。本文討論單臂單階段試驗所需的最小樣本數如何設定,對於罕見疾病、重大疾病或概念驗證的試驗(proof-of-concept studies) 的第二期臨床試驗提供了有效率且節省資源的方法。
參考文獻
Sample Sizes for Clinical, Laboratory and Epidemiology Studies, Fourth Edition. David Machin et. al. 2018
Sample size tables for exact single-stage phase II designs. R. P. A’Hern. STATISTICS IN MEDICINE Statist. Med. 2001; 20:859-866
One-Sample Multiple Testing Procedure for Phase II Clinical Trials. T. R. Fleming. Biometrics, 1982;
38:143-151