条件LOGIT回归分析

医学研究的病例-对照研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组。各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,常见是1:M(M <=3),即1个病例和1或2或3个对照匹配。也或者在使用过计量研究里面的PSM倾向得分匹配,也有可能使用到条件logistic回归。

诸如上述说明时,如果研究数据带有‘类实验’性质,因变量Y为0和1二分类数据,此时则应该使用条件logistic回归(也称配对logistic回归)。

    • 特别提示:
    • 条件logistic回归时,数据中一定需要记录下配对编号,比如1:2的配对(1个病例配对2个对照,且共有20个组,组别编号从1到20,那么同时会有3个1,3个2,3个3,类似下去),而且在分析时将配对编号放入对应框中。

    • 条件logistic回归时,因变量只能为0和1二分类数据,数字中只能包括0和1,如果不是,可使用数据处理->数据编码进行设置。

条件LOGIT回归案例

  • 1、背景

    某北方城市研究喉癌发病的危险因素,使用1:2匹配的病例对照研究方法进行调查。共有25对配对数据(每对3个,即25*3=75行数据)。现研究两个影响因素分别是:是否吸烟和是否有癌症家族史。数据格式(部分)如下表:

    配对编号ID:共有25对配对,编号从1~25,每个数字会重复3次(分别对应病例或对照组);

    Y是否患喉癌:数字1表示病例组即患喉癌,数字0表示对照组即没有患喉癌;

    X1是否吸烟:数字1表示吸烟,数字0表示不吸烟;

    X2癌症家族史:数字1表示有家族患喉癌史,数字0表示没有家族患喉癌史。

  • 2、理论

    条件logistic回归(也称配对logistic回归),一般使用于病例对照实验,也或者倾向得分匹配研究后的分析等。其与普通的二元logistic回归区别在于,多出配对ID,即将配对组纳入考虑范畴。其它在分析上等均一致。

    通常分析上先针对模型有效性进行分析,接着分析回归系数情况。

  • 3、操作

    本例子操作截图如下:

  • 4、SPSSAU输出结果

    SPSSAU共输出三个表格,分别是:“条件logit回归模型似然比检验结果”,“条件logit回归模型分析结果汇总”,“条件logit回归模型分析结果汇总-简化格式”。。

    • 条件logit回归模型似然比检验结果:进行模型似然比检验,用于分析模型是否有效;

    • 条件logit回归模型分析结果汇总:包括模型的回归系数,R方值等数据;

    • 条件logit回归模型分析结果汇总-简化格式:‘条件logit回归模型分析结果汇总’的简化格式表格。

  • 5、文字分析

    在分析上,首先需要模型通过似然比检验,其原定假设为不加入X和加入X模型无明显差异,如果对应的p值小于0.05,意味着拒绝原假设,也即说明模型有意义。

    从上表可知:此处模型检验的原定假设为:是否放入自变量(X1是否吸烟, X2癌症家族史)两种情况时模型质量均一样;从上表可知,模型拒绝原定假设(chi=6.319,p=0.042 <0.05),即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。

    从上表可知:模型中有3个R方值,事实上此3个值均为伪R方值,一般使用任意一个即可。不同于真正意义上的R方值,通常情况下此3个伪R方值会较小是正常现象。模型McFadden R方值为0.115,意味着是否吸烟, 癌症家族史共2项可解释是否患喉癌的11.5%原因。以及具体来看:X1是否吸烟的回归系数值为1.243,并且呈现出0.05水平的显著性(z=2.322,p=0.020 <0.05),意味着X1是否吸烟会对Y是否患喉癌产生显著的正向影响关系。以及 (RR值,exp(b)值)为3.465(95% CI:1.214~9.892),意味着相对不吸烟群体,吸烟群体患喉癌的风险倍数会加大3.465倍。

    X2癌症家族史的回归系数值为-0.184,但是并没有呈现出显著性(z=-0.365,p=0.715>0.05),意味着是否有癌症家族史并不会对患喉癌产生影响。

  • 6、剖析

    涉及以下几个关键点,分别如下:

    • 条件logistic回归时,数据中一定需要记录下配对编号,比如1:2的配对(1个病例配对2个对照,且共有20个组,组别编号从1到20,那么同时会有3个1,3个2,3个3,类似下去),而且在分析时将配对编号放入对应框中。

    • 条件logistic回归时,因变量只能为0和1二分类数据,数字中只能包括0和1,如果不是,可使用数据处理->数据编码进行设置。

疑难解惑

  • R方值很低如何办?
  • 条件logistic回归共提供3个R方值,均为伪R方值,伪R方值一般会比较小(比如0.1左右),这是正常现象。

  • 提示“Y值只能0和1”?
  • 如果因变量Y的数据不是0和1,首先可使用频数分析进行查看,同时使用数据处理->数据编码进行编码处理,让数据只能包括0和1即可。

  • R 方值很低怎么办?
  • R 方值的意思在于模型拟合程度,即X对于Y的解释力度情况。通常情况下R 方值并不太高是正常的,因为不可能把可能对Y产生影响的X都全部研究。通常建议查看影响关系情况即可,即查看p 值分析情况,不用过度在意R 方值大小。