有这样一种场景,总共收集100份数据,其中男性为48个,女性为52个;在收集数据之前预期男女比例应该是4:6 (40%为男性,60%为女性),那么预期的比例是否与实际的比例有着明显的差异性呢?类似这类希望研究数据的实际比例与预期比例是否一致。则可以使用卡方拟合优度检验,SPSSAU在问卷研究中的‘多选题’,‘单选-多选’题分析时,均使用到卡方拟合优度检验。
卡方拟合优度检验是一种非参数检验方法,其用于研究实际比例情况,是否与预期比例表现一致,它只针对于类别数据。
卡方拟合优度检验研究类别定类数据的实际比例与预期比例是否一致;
如果不设置预期比例,SPSSAU默认以各类别数据预期比例一致进行分析。
当前共收集100份数据,其中男性为48个,女性为52个。在收集数据之间已经预计好男性比例为4:6,当前希望用卡方拟合优度进行检验,以判定收集数据的分布是否与预期保持一致。收集数据最终汇总如下表:
性别 | 个数(权重) |
男 | 48 |
女 | 52 |
卡方拟合优度检验共适用两种数据格式,分别是‘加权格式’和‘不加权格式’;
上表为‘加权格式’,即单独用一列表示各项的数量,称为‘加权权重’,如果仅用一列表示数据,即100个数据即为100行,则为‘不加权格式’,也即原始数据格式。
卡方拟合优度检验的原理在于通过计算实际频数与预期频数的差值,且对差值进行平方,最终加和得到卡方值;然后通过卡方值计算得到p 值;如果说实际频数与预期频数差值特别大,则卡方值特别大,对应的p 值也会特别小;因此检验出来就会显示有明显的差异性;反之如果基本没有差异,那么实际频数和预期频数之间差值很小,则卡方值很小,计算得到的p 值会很大,最终显示没有差异性。
本例子使用‘加权数据’格式,并且希望的男女比例分别是4:6,操作截图如下:
关于期望比例设置上,可以设置成4和6;也可以写成0.4和0.6,也或者写成40和60均可;总之可以表达出相对比例均可,SPSSAU会自动进行‘归一化’计算。
SPSSAU共输出表格和图形,具体如下:
性别卡方拟合优度检验 | |||||||
项 | 实际频数 | 期望频数 | 残差 | 实际比例 | 期望比例 | χ2 | p |
女 | 52.000 | 60.000 | -8.000 | 52.00% | 60.00% | 2.667 | 0.102 |
男 | 48.000 | 40.000 | 8.000 | 48.00% | 40.00% | ||
* p <0.05 ** p <0.01 |
性别卡方拟合优度检验 | |||||||
项 | 实际频数 | 期望频数 | 残差 | 实际比例 | 期望比例 | χ2 | p |
女 | 52.000 | 60.000 | -8.000 | 52.00% | 60.00% | 2.667 | 0.102 |
男 | 48.000 | 40.000 | 8.000 | 48.00% | 40.00% | ||
* p <0.05 ** p <0.01 |
上表格显示,男女的实际频数分别是48和52,但预期分别是40和60;经过卡方拟合优度检验显示,实际比例和期望比例并没有呈现出显著性差异(χ2=2.667,p =0.102>0.05),意味着实际情况与期望情况基本一致,无明显的差异性。而且可以结合图形进行观察,也显示实际情况与期望情况区别很小,无统计学上的差异性。
涉及以下几个关键点,分别如下:
卡方拟合优度检验研究类别定类数据的实际比例与预期比例是否一致;
如果不设置预期比例,SPSSAU默认以各类别数据预期比例一致进行分析;
卡方拟合优度检验共适用两种数据格式,分别是‘加权格式’和‘不加权格式’。
关于‘加权数据格式’的详细说明参考:https://www.spssau.com/helps/otherdocuments/dataformat.html