临床试验的适应性设计是一种新兴试验方法,尤其多见于肿瘤药物临床试验。适应性设计功能强大:当其用于探索性试验,可评估比非适应性设计更大的剂量范围,从而为确证性研究阶段选择有效剂量;当其用于确证性试验,可对正在进行的试验做出预先计划的更改,并保持统计学效度不变。《新英格兰医学杂志》(NEJM)在一篇综述中通过实例介绍了适应性设计。
更改主要终点——EXAMINE试验
新的抗高血糖药获得美国监管机构全面批准之前,必须证明其不具有不可接受的主要心血管不良事件风险。具体指导方针是,在比较新药与标准治疗的前瞻性3期非劣效性试验中,主要心血管不良事件风险比的双侧重复95%置信区间上限不应超过1.3。EXAMINE(阿格列汀与标准治疗的心血管结局比较,Examination of Cardiovascular Outcomes with Alogliptin versus Standard of Care)试验就是对二肽基肽酶4抑制剂阿格列汀开展的这样一项心血管结局试验。该试验纳入了5380例患者,中位随访时间为18个月,并通过1.16的置信区间上限证明了非劣效性。
假如置信区间上限小于1,则试验将证明优效性。也就是说,该试验不仅将排除不可接受的心血管风险增加,而且将证明新药具有保护作用。表3列出了心血管结局试验要在一定风险比范围内以90%统计学功效证明优效性,试验所需的样本量。例如,即使一种药物风险比良好(0.85)且每年事件发生率为2.5%,试验也需要在2年内纳入近18,000例患者,并且再进行3年随访。在这种情况下,适应性设计可以最准确地估计所需样本量,因为可以根据试验本身的实际期中结果重新确定试验在优效性方面的统计学功效。EXAMINE试验预先设定,经过裁定的主要心血管不良事件最大数量为650起,在发生550起事件后进行计划的期中分析,并且如果组间比较的P值小于0.001,则可以选择停止试验并宣称具有非劣效性。
表3. 以90%统计学功效证明优效性的试验所需的样本量
这一试验设计还有另外一个特征。即使已跨过可以宣布非劣效性的提前停止界值,该试验也可持续至发生650起事件,前提是在当前趋势下,试验结束时证明优效性的条件功效或概率超过20%。这一特征使申办方可以有机会宣称优效性。由于非劣效性假设的主要分析被预设为在意向治疗人群中进行,因此将目标从非劣效性更改成优效性不会引起人群变化。然而,由于只有20%条件功效,并且没有将经裁定的事件总数增加至650起以上这一选项,因此实际宣布优效性的可能性很低。这一设计可通过纳入适应选项做出改进,即如果期中分析跨过了非劣效性界值,并且宣布优效性的条件功效足够高,则可增加最终分析所需事件数量(图2)。
图2. 心血管结局试验的适应性设计(带有优效性决策区域)
如果期中分析跨过了可以宣布非劣效性的疗效界值,则发生550起事件之后,根据在650起事件的最终分析中宣称优效性的条件功效(CPsup),继续开展试验的区域被分成四个区域。根据期中结果落在的区域,试验可立即终止并宣布达到非劣效性,也可继续进行(事件数量进行或不进行适应性增加),并且希望在最终分析时可宣布达到优效性。浅蓝色区域代表疗效区域,浅红色区域代表宣布优效性的无效区域。浅红色条向下延伸到蓝色区域,因为疗效和无效界值必须在最终分析中汇合,这样才能做出决策。
生物标志物驱动的适应性人群富集设计
在具有不同遗传或生物标志物特征的患者亚组之间,疗效可能有很大差异。通过预测性生物标志物识别可能从靶向治疗获益的患者,将提高确证性临床试验成功率。
然而,在生物标志物显示出预测意义的既往研究中,大多数并非为了这一目的而设计。即使在严格对照的3期试验中,分析中的生物标志物部分也常为回顾性,或者试验从一开始就将纳入的患者限制在目标亚组。然而,美国食品药品管理局关于临床试验富集策略的指南建议,即使有可靠的生物学基础表明某一疗法是靶向特定的遗传标志物,临床试验也应纳入不具有该标志物的患者,从而在具有该标志物的患者中证明敏感性,并且在不具有该标志物的患者中证明缺乏敏感性。
因此,为靶向疗法设计3期确证性试验的研究者面临以下难题:应该不考虑生物标志物状态,纳入所有患者,还是应该根据可能未设立对照的早期临床数据中的生物学作用机制,仅纳入目标亚组。如果并无充分经验证据证明非目标亚组缺乏疗效,却仅纳入目标亚组,则可能使很大一部分人群无法获得可能有益的治疗。然而,如果在异质性人群中开展大规模试验,疗效可能被减弱,进而统计学功效不足。一个很容易理解的例子是维生素B12缺乏引起的贫血。在纳入贫血患者的随机临床试验中,给实验性疗法组每例患者均服用维生素B12将产生阴性结果,但真正有维生素B12缺乏的少部分患者将获益。
适应性人群富集设计是一种高效方法,它可前瞻性验证一项生物标志物对某一靶向疗法有预测意义。这一设计的基本理念是,在不考虑生物标志物状态的情况下将所有参与者随机分组,但通过期中分析确定生物标志物阳性患者与生物标志物阴性患者接受靶向药物治疗后的获益是否不同。如果似乎只有生物标志物阳性患者获益,则生物标志物阴性亚组的后续纳入工作将终止。对数据所做的最终统计学分析将基于两个阶段的数据,并通过闭合检验和条件误差率方法来避免Ⅰ型误差增大。图3是这一设计的示意图。
图3. 适应性两阶段人群富集设计的示意图
在人群富集设计中,根据二分生物标志物,在随机分组之前将人群分层为两个亚组,S和S′。在每个亚组纳入特定数量患者(n0)之后进行期中分析。此时,每组将有特定数量的事件:S亚组有d0起事件,S’亚组有d0’起事件。之后对数据进行审核,试验可因无效而终止,可根据计划继续进行,也可继续进行并且只在S亚组纳入患者。在这一设计中,有生物学基础支持以下假设:生物标志物可预测S亚组产生应答,S′亚组不产生应答。期中分析的目的是验证这一假设是否成立,如果成立,则在试验后续部分仅富集S亚组患者。
监管问题
目前,监管机构往往会对适应性设计进行比传统设计更严格的审查。原因可能包括对此类设计的经验有限,以及非常担心申办方提交构思欠佳的设计,进而可能无法控制Ⅰ型错误,或者实际效率可能低于传统设计。与任何新方法一样,适应性设计必须有明确的设计原理、关于统计学效度的证明、基于模拟的工作特征,以及数据和安全监查委员会章程(章程中说明期中决策规则,以及防止操作偏倚的方式)。
期中结果泄露可能会改变研究者行事方式,并导致操作偏倚。即使期中结果未泄露,仅仅获知做出了适应性更改(例如样本量重估)也可能促使研究者推测新化合物的疗效,这可能改变期中分析后的患者纳入和特征。这些风险可通过以下方式来降低:开展双盲试验,与研究者进行适当沟通,设立详细且可稽查的标准操作程序(这些程序记录了什么人看到什么和何时看到)以及证明做出适应性更改前后所纳入患者的基线特征匹配。
由于剂量选择、样本量增加或人群富集而做出适应性更改时,随机分组、药物供应和患者招募可能会出现问题。至关重要的一点是确保期中分析的样本量足以做出适应性决策。如果相对于观察到主要终点所需的时间而言,纳入患者的速度太快,那么在获得制定适应性决策所需的充分信息之前,计划的患者纳入工作可能已经完成。迄今为止,监管机构对适应性设计持支持态度。
适应性试验的未来
推广适应性试验设计可加速发现过程,尤其是如果与其他不断发展的试验概念相结合,例如大型简单试验(large, simple trials)。适应性试验设计的发展需要复杂统计学方法得到进一步传播和认可。适应性试验设计具有直观的吸引力,并且试图确定最有可能从某一疗法中获益的患者,这一特征将与大多数医师和患者产生共鸣。
参考文献
Bhatt DL, Mehta C. Adaptive designs for clinical trials. N Engl J Med 2016;375:65-74.
最新评论