在医学、社会科学、经济学等领域的量化研究中,研究者经常需要回答这样一类问题:哪些因素会影响某个结果?每个因素的影响有多大?比如:
医生想了解年龄、血压、BMI、吸烟史等因素是否会影响患者心梗发生风险;
探究家庭收入、父母学历、课外辅导时长对学生期末成绩的影响;
分析广告投放、价格折扣、季节因素对产品销量的影响。
上述研究问题都可以通过回归分析来解决。而单因素多因素回归是回归分析中一种经典的"两步走"分析策略:
单因素回归分析(Univariate Analysis):将每个自变量单独放入模型,考察它与因变量之间的关系——相当于"初筛",看看哪些因素"可能有影响";
多因素回归分析(Multivariate Analysis):将所有自变量同时放入模型,在控制其他变量影响的条件下,评估每个自变量的独立效应——相当于"互相校正后,看谁才是真正的影响因素"。
SPSSAU将单因素分析和多因素分析一键整合,用户只需选择因变量、自变量和回归类型,系统自动完成单因素初筛 + 多因素校正分析,并输出整齐可比的结果表格,简化操作。在SPSSAU中,
支持线性回归/二元Logit回归/Cox回归/有序Logit回归/Poisson回归和负二项回归共6种模型;
支持X设置为定类数据;
提供单因素回归和多因素回归时分别的森林图;
单因素与多因素回归的核心思路是:单因素是指分别每个X与Y进行回归,多因素是指所有X一并纳入与Y进行回归。单因素回归逐一分析各自变量与结局的粗关联(Crude),多因素回归同时纳入所有自变量,控制混杂后得到各变量的独立效应(Adjusted)。
本次案例数据中包括7个自变量X,其中X1/X4/X5/X7均为定类数据。现在希望进行单因素回归和多因素回归,完成自变量X的初筛和独立效应情况分析。
单因素回归分析时:其将每个X分别与Y进行回归,得到回归系数,以及粗效应Crude;多因素回归分析时:将所有X一并纳入模型与Y进行回归,得到回归系数,以及独立效应Adjusted。SPSSAU在输出结果和森林图中均有提供Crude和Adjusted,如下表所示:
| 模型 | 粗效应 | 独立效应 |
|---|---|---|
| 线性回归 | Crude β(95% CI) | Adjusted β(95% CI) |
| 二元Logistic回归 | Crude OR (95% CI) | Adjusted OR (95% CI) |
| 有序Logit回归 | Crude OR (95% CI) | Adjusted OR (95% CI) |
| 多分类Logit回归 | Crude RR (95% CI) | Adjusted RR (95% CI) |
| Poisson回归 | Crude RR (95% CI) | Adjusted RR (95% CI) |
| 负二项回归 | Crude RR (95% CI) | Adjusted RR (95% CI) |
| Cox回归 | Crude HR (95% CI) | Adjusted HR (95% CI) |
如果是线性回归,直接提供回归系数β及其95%置信区间;二元logit回归和有序Logit回归,其为OR值,即回归系数β的指数次方,以及OR的95%置信区间;多分类Logit和Poisson回归,负二项回归为RR值,其也为回归系数β的指数次方,以及RR的95%置信区间。COX回归提供HR值及其95% CI值。无论是OR/RR/HR,它们数学计算上均为回归系数β的指数次方,但实际意义上一般分别称OR/RR/HR而已。
本例子操作截图如下:
在SPSSAU‘单因素与多因素回归’方法中,其涉及因变量框,自变量X框,并且需要研究者自行选择回归模型,分别是:线性回归/二元Logit回归/Cox回归/有序Logit回归/Poisson回归和负二项回归共6种模型,本案例操作如下图所示:
本次数据的因变量是01二分类数据,因此使用二元Logistic回归模型。上图中展示下拉选中了4项为定类(X1/X4/X5/X7)。
SPSSAU共输出6个表格,如下述:
| SPSSAU单因素与多因素回归输出表格 | 说明 |
|---|---|
| 单因素多因素回归基本信息 | 包括各变量的数据类型汇总 |
| 单因素和多因素回归结果 | 核心的单因素与多因素回归分析表格,并且支持切换查看 |
| 单因素回归森林图 | 森林图直观展示单因素回归结果 |
| 多因素回归森林图 | 森林图直观展示单因素回归结果 |
| 样本缺失情况汇总 | 分析数据的缺失情况等 |
本案例设置4个X定类数据,SPSSAU会自动对定类X进行哑变量处理,并且将第1项作为参照项。
为了排除变量间的共线性和混杂干扰,将所有自变量全部纳入多因素Logistic回归模型进行单因素与多因素分析。
单因素分析结果显示:X6对因变量具有显著的正向影响(β = 0.09,p = 0.002),其粗优势比(Crude OR)为1.10(95% CI: 1.03~1.17),表明该变量数值每增加一个单位,事件发生概率平均提升10%。分类变量x7_category表现出显著的负向影响(β = -0.37,p = 0.050),以状态0作为基准对照,状态1的事件发生风险降低了31%(OR = 0.69,95% CI: 0.47~1.00)。其余变量(包括x1_category、x2、x3、x4_category、x5_category)在单因素分析中均未达到统计学显著性水平(p > 0.05)。
多因素分析在控制其他变量后,结果显示x6与x7_category依然具有独立的统计学意义,是因变量的独立影响因子。变量x6呈现出更为稳健的正向驱动效应(β = 0.11,p = 0.001),调整后优势比(Adjusted OR)为1.11(95% CI: 1.05~1.19),表明x6每升高一个单位,事件发生的独立风险将增加11%。变量x7_category呈现出显著的独立抑制效应(β = -0.39,p = 0.046),调整后优势比为0.68(95% CI: 0.46~0.99),表明在同等条件下,状态1发生事件的概率独立地比状态0降低了32%。
此外,变量x4_category在排除混杂后呈现出边缘显著趋势(β = 0.33,p = 0.080),状态1相比状态0的事件发生概率有上升趋势(OR = 1.39,95% CI: 0.96~2.00),值得在后续研究中持续关注。而x1_category、x2、x3以及x5_category在多因素调整后均不显著(p > 0.05),尚不能认为其对因变量具有独立解释作用。
与此同时,SPSSAU还输出单因素或多因素对应的森林图,分别如下:
上图是单因素回归后得到的森林图,森林图的解读上,可以直接查看P值,也或者查看横线与小矩阵,如果横线穿越了虚线(即参照线),意味着并不会显著,如图中看到:仅X6和X7具有显著性即说明该两项是作用因素。下图是多因素回归对应的森林图。其考虑独立效应情况,单因素回归时显示X6和X7有着影响作用,而且多因素回归时,其也有着相同的效应,即排除干扰因素后,X6和X7依旧会有着作用影响关系。
单因素与多因素回归可用于‘变量筛选’,实际研究中,自变量可能非常多(几十个甚至上百个),全部纳入多因素模型会导致模型不稳定(自由度损失、多重共线性等问题)。单因素分析可以帮助研究者快速识别出潜在有意义的变量,再进行多因素分析。
粗效应Crude与调整效应Adjusted的对比:通过比较单因素(粗效应)和多因素(调整效应)的结果,可以判断变量间是否存在混杂效应。如果某变量在单因素中显著但在多因素中不显著,说明它的效应被其他变量"解释"掉了。
涉及到哑变量问题,其原理内容请参考,点击可查看。