在研究X对于Y的影响关系时,如果Y为定类数据,比如是否愿意购买,是否愿意推荐,出行方式偏好,总统候选人选择偏好等。当Y为定类数据时,则应该使用Logistic回归分析,而具体来看,logistic回归可以划分为二元logistic回归分析,或者多分类logistic回归分析。二者即有相同之处,也有不同的地方。主要区别在于Y的选项个数。
项 | 特征 | 举例 | 其它 |
二元Logistic回归 | Y为定类且选项仅2个 | 是否愿意购买(愿意用1表示,不愿意用0表示) | Y的数字个数仅2个,且数字只能为0和1 |
多分类Logistic回归 | Y为定类且选项大于2个 | 总统候选人偏好(特朗普、希拉里、卢比奥) |
Logistic回归时,因变量Y值为定类数据,因而需要有对照参考项。如果是二元Logistic回归,默认以数字0作为参考项【通常数字0表示不愿意,不喜欢,不会等】;如果是多分类logistic回归,则SPSSAU默认以第一项【即数字最小的那项】作为参考项。
如果希望改变对照项,可使用数据编码功能先编码后再分析。同时针对定类数据,SPSSAU建议先进行数据标签设置,便于系统输出带“标签”的智能文字分析。
多分类logistic回归(也称作多元logistic回归,多项Logit等),对于多分类logistic回归建模,通常需要分析信息包括:基本信息描述,模型检验判断或者对比,模型结果汇总。SPSSAU分别输出三个表格。
多分类Logistic回归分析基本汇总 | |||
名称 | 选项 | 频数 | 百分比 |
总统候选人选择 | 特朗普 | 661 | 35.79% |
希拉里 | 278 | 15.05% | |
卢比奥 | 908 | 49.16% | |
总计 | 1847 | 100.0 |
上表格对于模型的因变量进行基本统计。
多分类Logistic回归模型似然比检验 | ||||||
似然比卡方值 | df | p | AIC 值 | BIC 值 | -2LLNULL值 | -2LLF值 |
91.573 | 6 | 0.000 | 3625.256 | 3669.427 | 3700.829 | 3609.256 |
上表格是模型检验判断或者相关模型对比指标等,其中p 值用于验证模型是否有意义;AIC或BIC 值用于对比不同模型的优劣。
多分类Logistic回归分析结果汇总 | |||||||
希拉里 | 回归系数 | 标准误 | z 值 | p 值 | OR值 | OR值95% CI(LL) | OR值95% CI(UL) |
性别(男) | 0.309 | 0.145 | 2.127 | 0.033 | 1.362 | 1.025 | 1.810 |
年龄 | -0.437 | 0.072 | -6.076 | 0.000 | 0.646 | 0.561 | 0.744 |
学历 | -0.065 | 0.062 | -1.053 | 0.292 | 0.937 | 0.829 | 1.058 |
截距 | 0.081 | 0.224 | 0.364 | 0.716 | 1.085 | 0.700 | 1.682 |
卢比奥 | 回归系数 | 标准误 | z 值 | p 值 | OR值 | OR值95% CI(LL) | OR值95% CI(UL) |
性别(男) | -0.436 | 0.104 | -4.192 | 0.000 | 0.647 | 0.527 | 0.793 |
年龄 | 0.076 | 0.050 | 1.516 | 0.130 | 1.079 | 0.978 | 1.191 |
学历 | -0.002 | 0.043 | -0.054 | 0.957 | 0.998 | 0.917 | 1.085 |
截距 | 0.312 | 0.171 | 1.826 | 0.068 | 1.366 | 0.977 | 1.910 |
McFadden R 方:0.025 |
上表格是模型结果汇总表格,也是最核心的表格。具体关于多分类Logistic回归的剖析,请参考下面的案例解析。
在2016年美国总统选举时,共有三名候选人,分别是特朗普、希拉里、卢比奥。有一市场研究公司想预测最终谁会胜出,因此收集到共1847名民众信息,包括选择偏好,性别,年龄,学历等信息进行研究,研究性别,年龄和学历对于总统候选人选择的影响情况,最终做出科学预测。
多分类Logistic回归分析用于研究X对于Y的影响关系,其中X,也可以是定类数据(如果X为定类数据,需要做虚拟(哑)变量设置),Y为多分类定类数据。针对多分类Logistic回归分析时,可分为三个步骤。
第一:模型的基本背景情况说明;比如模型研究X对于Y的影响,X分别是那些,Y具体情况如何等。
第二:针对模型的构建和比较过程进行描述,包括分析p 值来检测模型构建是否有意义,以及模型构建时的重复选择过程,使用AIC和BIC准则对比,选出最优模型等;
第三:针对模型的具体情况进行分析,首先分析p 值,如果此值小于0.05,说明X对于Y有影响关系,接着再具体研究影响关系情况即可,比如是正向影响还是负向影响关系等;除此之外,还可以写出回归模型构建公式,以及模型的预测准确率情况等。
多分类Logistic回归时,Y是定类数据;需要有对照项,SPSSAU默认以Y对应的最小数字作为对照项。
一定注意,SPSSAU建议首先对Y进行标签设置;便于输出带‘标签’的智能文字分析;
如果X为定类数据,通常情况下需要将X进行虚拟(哑)变量设置【SPSSAU中生成变量功能中有】。
如果X为定类数据,此时可以考虑使用交叉卡方分析去研究X和Y的关系。
多分类Logistic回归模型,可通过对比AIC或BIC 值,对比选出最优模型。
如果X非常多(比如超过10个),此时可以先对定类的X与Y进行卡方分析,对定量的X与Y进行方差分析,先看有没有差异关系,将最终有差异关系的X放入回归模型中,这样X会较少,并且X与Y均有差异关系,也更可能有影响关系,此时模型的构建会更有科学。
本例子中研究X对于Y的差异;X分别性别,年龄和学历; Y为总统候选人。放置如下:
SPSSAU共输出三个表格结果,上述已有说明不再赘述。
多分类Logistic回归分析基本汇总 | |||
名称 | 选项 | 频数 | 百分比 |
总统候选人选择 | 特朗普 | 661 | 35.79% |
希拉里 | 278 | 15.05% | |
卢比奥 | 908 | 49.16% | |
总计 | 1847 | 100.0 |
本研究共收集数据1847份。使用多分类logistic回归分析进行建模,研究民众性别,年龄和学历对于总统候选人的影响关系。总统候选人为定类数据,而且共为三名,分别是特朗普,希拉里和卢比奥。从上表可知,选择特郞普的比例是35.79%,希拉里的选择比例是15.05%,卢比奥的比例最高为49.16%。
在进行模型构建时,将特朗普作为参照对比项。以及自变量中性别为定类数据,因而首先将其进行哑变量设置后,并且将女作为参照对比项,因此最终将“性别(男)”放入模型中。
多分类Logistic回归模型似然比检验 | ||||||
似然比卡方值 | df | p | AIC 值 | BIC 值 | -2LLNULL值 | -2LLF值 |
91.573 | 6 | 0.000 | 3625.256 | 3669.427 | 3700.829 | 3609.256 |
上表格对于模型构建是否有意义进行验证,模型检验的原定假设为:是否放入自变量(性别(男), 年龄, 学历)时模型质量均一样;这里p 值小于0.05(χ2=91.573,p =0.00),因而说明拒绝原定假设,即说明本次构建模型有意义。
AIC和BIC 值用于模型的对比,其标准为越小越好;如果同一个模型构建了两次(比如一个模型不放入学历,另一个模型放入学历),可将AIC和BIC 值记录下来,并且进行对比,最终选出最有意义的模型。
多分类Logistic回归分析结果汇总 | |||||||
希拉里 | 回归系数 | 标准误 | z 值 | p 值 | OR值 | OR值95% CI(LL) | OR值95% CI(UL) |
性别(男) | 0.309 | 0.145 | 2.127 | 0.033 | 1.362 | 1.025 | 1.810 |
年龄 | -0.437 | 0.072 | -6.076 | 0.000 | 0.646 | 0.561 | 0.744 |
学历 | -0.065 | 0.062 | -1.053 | 0.292 | 0.937 | 0.829 | 1.058 |
截距 | 0.081 | 0.224 | 0.364 | 0.716 | 1.085 | 0.700 | 1.682 |
卢比奥 | 回归系数 | 标准误 | z 值 | p 值 | OR值 | OR值95% CI(LL) | OR值95% CI(UL) |
性别(男) | -0.436 | 0.104 | -4.192 | 0.000 | 0.647 | 0.527 | 0.793 |
年龄 | 0.076 | 0.050 | 1.516 | 0.130 | 1.079 | 0.978 | 1.191 |
学历 | -0.002 | 0.043 | -0.054 | 0.957 | 0.998 | 0.917 | 1.085 |
截距 | 0.312 | 0.171 | 1.826 | 0.068 | 1.366 | 0.977 | 1.910 |
McFadden R 方:0.025 |
本次研究模型时,将特朗普作为对比参照项,自变量分别为:性别(男),年龄和学历。首先构建模型公式分别如下:
ln(希拉里/特朗普)=0.081 + 0.309*性别(男)-0.437*年龄-0.065*学历;
ln(卢比奥/特朗普)=0.312-0.436*性别(男) + 0.076*年龄-0.002*学历;
以特朗普为对照项,分析希拉里的选择偏好情况。表格中显示:性别(男)的回归系数值为0.309>0,并且呈现出0.05水平的显著性(p =0.033 <0.05);则说明在特朗普和希拉里之间进行PK时,男性群体更加愿意选择希拉里。年龄的回归系数值为-0.437<0,并且呈现出0.01水平的显著性( p =0.000<0.01), 则说明在特朗普和希拉里之间进行PK时,年龄越大的群体,他们会更加愿意选择特朗普。
以特朗普为对照项,分析卢比奥的选择偏好情况。表格中显示:性别(男)的回归系数值为-0.436 <0,并且呈现出0.05水平的显著性(p =0.000 <0.05);则说明在特朗普和卢比奥之间进行PK时,男性群体更加愿意选择特朗普。
在医学研究中,很可能会对OR值进行分析,其意义在于X增加1个单位时,Y的变化幅度情况。如果仅研究影响关系,则OR值的意义相对较小;
SPSSAU提供McFadden R 2值,其代表X对于Y的解释力度,比如上例中为0.025,即说明性别,年龄和学历共三个X可以解释总统候选人选择偏好2.5%的原因。通常情况下,此值使用较少。
多分类Logistic回归分析涉及以下几个关键点,分别如下:
SPSSAU默认将Y的最小数字作为对照项;
在分析前建议首先对Y进行数据标签设置;
如果模型预测准确率较低,需要多次进行分析对比(使用AIC和BIC 值),找出最优的模型结果;
如果X是定类数据,此时需要对X进行虚拟(哑)变量设置。
如果X的个数非常多(比如超过10个),此时需要进行甄别选择出有意义的X(比如使用方差分析或者卡方分析,选出X与Y有显著差异的X放入多分类Logistic回归模型中)。
如果模型质量非常糟糕,会出现很多的null值。建议首先查看因变量Y的类别分布情况(使用频数分析),如果Y的类别很多,而且个别类别的频数很低,则很容易出现此类问题。建议将因变量Y进行重新分组,使用“数据处理->数据编码”功能,然后重新分析。
如果出现此提示,意味着因变量Y的选项不符合多分类logistic回归分析要求,通常情况下因变量Y的分类个数应该介于3~8个之间。
1.用户可使用频数分析功能进行查看因变量Y的选项个数情况;
2.如果选项个数过多需要进行合并处理等,可使用【数据处理->数据编码】功能操作。
进行多分类Logit时, SPSSAU默认以第一项【即数字最小的那项】作为参考项。如果需要进行改变,可使用【数据处理->数据编码】功能进行设置,将参考项的数字设为最小即可,如下图所示(原本以1作为参考项,现在改为3作为参考项,将3设置为数字最小0即可,当然设置其它更小值比如-1也可以):
Logit回归时会提供此3个R 方值,此3个R 方均为伪R 方值(并非像线性回归的R 方值意义一样),其值越大越好,但其无法非常有效的表达模型的拟合程度,意义相对交小,而且多数情况此3个指标值均会特别小,研究人员不用过分关注于此3个指标值。
出现此种情况原因是模型无法收敛所致。建议按以下步骤进行检查并解决。
第一:数据分布严重不均匀。如果因变量有5个不同的数字,其中某项的比例仅为1%,也或者频数仅为个位数;此时有可能出现无法收敛模型无法拟合;
第二:自变量中放入虚拟变量,比如学历有5项,虚拟变量出来为5项,5项全部都放入了模型,这一定会出错;
第三:将所有项做相关分析,如果两两项之间的相关关系非常强(比如大于0.8)说明共线性问题严重,将此类自变量移除出去,再次分析就好;
第四:分析样本量过小,比如分析项有10个,但分析样本量仅20个。
z 值=回归系数/标准误,该值为中间过程值无意义,只需要看p 值即可。有的软件会提供wald值(但不提供z 值,该值也无实际意义),wald值= z 值的平方。
多分类logit回归,出现一堆null值,通常是由于‘因变量的类别分布有问题,比如某个类别的样本量小于10无代表性,也或者有共线性问题需要查看’,此时建议对因变量的各选项进行合并组别(或者先筛选下),然后再次进行分析。当然也有可能是由于共线性问题导致无法拟合出结果,此时可先进行相关分析,将相关系数值过大的项移出模型中再次进行分析即可。
针对多分类logit回归,SPSSAU默认是以第一项作为参照项,而SPSS默认是最后一项作为参考项,研究中以第一项还是最后一项作为参考项并没有固定的标准,更常用是使用第一项作为参考项。
在进行多分类logit回归时,可选择将分析的预测类别进行保存,SPSSAU默认会新生成一列标题来标识预测识别,标题名称类似为“MulLogit_PredCategory_****”。
有序logit回归或者多分类logit回归时,spssau默认会设置第一项作为参照项,因此输出结果时会少一项。