Kaplan Meier

  • Kaplan Meier(有时也称单因素生存分析),它用于研究1个因素对于生存时间影响的数学模型,其已在医疗领域中广泛使用。比如新药物使用是否会有效的增加癌症病人的存活时间。

    当前某研究人员拟观察一种新型癌症药物的疗效情况,首先将50名癌症患者随机分成两组,对照组使用传统治疗方式,实验组使用新式药物治疗方式。并且随访时间为2年。并且以‘是否死亡’为作为结局。希望通过研究了解到新式药物是否对于生存时间带来影响。

    Kaplan Meier在于研究某1个因素对于Y的影响,而此处的Y需要使用2项表示,分别为生存状态和生存时间,简单地讲即需要同时考虑结局(死亡)是否发生,同时还需要考虑‘死亡’这一结局发生的时间。

    比如从当前时间点到2年后的随访,有可能患者仅生成4周,也有可能生成20周,更有可能在2年后依然存活,此处的生存时间即为存活的时间长度。同时还需要单独用一项表示生存状态,分别用数字1和0表示,1表示死亡,0表示生存。

    需要特别说明的是,结局很可能不是死亡或者存活,很可能会出现两类分别是:“未知状态”和“未确定状态”。“未知状态”:比如失访,某患者失去联系;“未确定状态”:比如2年后的随访时间点时依然存活,那么生存时间最多会记录2年,但事实上生存时间会更长。此两类数据也称“删除censor数据”,录入数据时均录为数字0(即表示“生存”), 可参见下表格:

    举例 生存时间 生存状态录入
    失访,不知道生存状态 可确定的生存时间,但最终生存状态未知 0
    随访时依然稳定 2年(随访时间点) 0

    无论删失还是截尾数据,录入数据格式均如上表格即可。通常对于分析影响甚小,但数据录入需要备加注意。

    SPSSAU操作示例如下:

    • 特别提示,针对Kaplan Meier,需要特别注意以下3点:
    • Kaplan Meier共有两个因变量(一个是生存时间,另外一个是生存状态);缺一不可;

    • “生存状态”项只能为1和0; 1表示死亡,0表示生存;(也或者1表示阳性,0表示阴性;1表示放弃,0表示坚持;诸如此类等,数字1用于标识研究感兴趣的结局事件已经发生);【可通过SPSSAU的数据编码进行设置成0和1数字】;

    • Kaplan Meier时只研究1个因素的生存情况,如果有多个因素即多个X时,需要使用Cox回归。

Kaplan Meier案例

  • 1、背景

    某研究人员拟观察一种新型癌症药物的疗效情况,首先将100名癌症患者随机分成两组,对照组使用传统治疗方式,实验组使用新式药物治疗方式。并且随访时间为2年,以‘死亡’为作为结局。希望通过研究了解到新式药物是否对于生存时间带来影响。

    原始数据如下图,下图中药物组别0表示传统治疗,1表示新式药物;生存时间以周为单位;生存状态1表示死亡,0表示生存。

  • 2、理论

    Kaplan Meier是一种研究影响生存时间的方法,由于生存时间数据的特殊性,因而此模型的因变量会涉及两项,分别是生存时间和生存状态;并且生存状态只能使用数字1或者数字0表示(1表示死亡,0表示生存)【可通过SPSSAU的数据编码进行设置成0和1数字】;

    除此之外,Kaplan Meier会有生存曲线图,此图会非常直观的展示研究对象的生存情况。包括整体的生存曲线图,以及研究因素在不同类别时的生存曲线图。

  • 3、操作

    本案例研究药物对于癌症患者存活时间的关系,SPSSAU操作截图如下:

  • 4、SPSSAU输出结果

    SPSSAU共输出4个表格,分别是‘模型基本描述’,‘生存时间估计(中位数)’,‘整体Log Rank检验’,‘配对Log Rank检验’。

    模型基本描述
    Censored(生存状态=0) Events(生存状态=1) N 事件占比 中位数(生存时间(周))
    传统治疗 7 43 50 86.00% 9.000
    新式药物 6 44 50 88.00% 65.000
    汇总 13 87 100 87.00% 24.500

    上表格展示Kaplan Meier模型的基本数据情况,包括两种生存状态时,不同研究因素项的频数,以及‘结局事件’(生存状态数字为1)的占比情况,还展示出生存时间的中位数值。此表格仅列出基本数据指标,无其它实际意义。特别说明一点,通常情况下感兴趣的结局事情比例(事件占比)一般希望大于20%。

    生存时间估计(中位数) 
    中位数估计值 95% CI
    传统治疗 9.000 7.000 ~ 18.000
    新式药物 69.000 41.000 ~ 82.000
    汇总 36.000 11.000 ~ 49.000

    上表格为Kaplan Meier模型得到的生存时间中位数估计值。由于生存时间的波动性,因而Kaplan Meier分析时生存时间一般使用中位数表示整体情况(而不是使用平均值)。

    整体所有研究病例生存时间估计值是36周,以及传统治疗的生存时间中位数是9周,但 ‘新式药物’时中位数生存时间为69周,明显高于传统治疗时的生存时间。

    整体Log Rank检验
    χ2 df p
    Log Rank检验 10.691 1 0.001

    将‘药物组别’作为研究因素,生存状态使用生存状态表示(数字0表示生存,1表示死亡),研究药物组别对于生存时间(周)的影响关系情况,首先对KM模型有效性进行分析,从上表可知:此处模型检验的原定假设为:是否放入药物组别两种情况时模型质量均一样;从上表可知,模型拒绝原定假设(χ2=10.691,p =0.001 < 0.05),即说明本次模型构建有意义。

    配对Log Rank检验
    第1项 第2项 χ2 p
    传统治疗 新式药物 10.691 0.001

    配对Log Rank检验,用于研究因素不同项时之间的两两对比,由于本次研究因素‘药物组别’只有两项,因此两两配对只会出现一次。上表格可以看出,传统治疗和新式药物两种方案之间的生存时间呈现出显著性差异(χ2=10.691,p =0.001 <0.05),具体差异可通过生存曲线图进行分析和研究。

    除此之外,Kaplan Meier会生成生存曲线如下图分析:

    上图看出,X轴为生存时间,Y轴为累积生存率。生存时间为0即刚开始时,累积生存率为1,即均为存活状态;随着生存时间的增加,累积生存率也会明显的下降,而且明显的,随意时间增长,累积生存率会逐步的下降。

    另外,下图展示两种治疗方案时生存曲线的变化差异情况。

    上图可以明显的看出,‘新式药物’的生存率会明显的高于‘传统治疗’方案。而且‘新式药物’时,0~80周时生存率下降的幅度相对较小,但在80周后生存率下降幅度加大。‘传统治疗’方案来看,0~20周生存率下降非常明显,20周后生存率下降幅度相对较为稳定。无论如何,新式药物的生存率都会明显的高于传统治疗方案,整体说明,‘新式药物’起着明显的作用。

  • 5、文字分析

    具体文字分析例子如下:

    本研究数据针对100名癌症患者进行研究,将100名患者随机分为两组,分别是实验组和对照组,实验组使用新式药物,对照组使用传统药物;对于研究病例进行2年后随访。使用SPSSAU软件进行分析,利用Kaplan Meier方法进行研究。

    从上表可以看到,模型进行Log Rank检验时拒绝原定假设(χ2=10.691,p =0.001<0.05),即说明本次模型构建有意义。以及针对治疗药物进行配对Log Rank检验时发现,传统治疗和新式药物两种方案之间的生存时间呈现出显著性差异(χ2=10.691,p =0.001<0.05)。

    具体针对生存曲线分析可知,‘新式药物’的生存率会明显的高于‘传统治疗’方案。而且‘新式药物’时,0~80周时生存率下降的幅度相对较小,但在80周后生存率下降幅度加大。‘传统治疗’方案来看,0~20周生存率下降非常明显,20周后生存率下降幅度相对较为稳定。无论如何,新式药物的生存率都会明显的高于传统治疗方案,整体说明,‘新式药物’起着明显的作用。

  • 6、剖析

    • 特别提示,针对Kaplan Meier,需要特别注意以下几点:
    • Kaplan Meier共有两个因变量(一个是生存时间,另外一个是生存状态);缺一不可;

    • “生存状态”项只能为1和0; 1表示死亡,0表示生存;(也或者1表示阳性,0表示阴性;1表示放弃,0表示坚持;诸如此类等,数字1用于标识研究感兴趣的结局事件已经发生);【可通过SPSSAU的数据编码进行设置成0和1数字】;

    • Kaplan Meier只研究1个因素的生存情况,如果有多个因素即多个X时,需要使用Cox回归。

疑难解惑

  • HR值和RR值的区别?
  • SPSSAU中COX回归或者kaplan-meier曲线时,HR值和RR值的计算公式均一致,计算公式为exp(b),即自然对数的回归系数次方。该两个指标在实际研究中意义可能有所不同,但数学计算公式完全一致。