当前有两种办法可以诊断癌症,A方法简易且成本低廉但是准确率稍低;B方法结果可靠但操作麻烦且成本较高。共收集53名待诊患者,并且分别进行两种方法诊断,现希望通过研究判断两种诊断方法是否有差异性,即两种方法之间的差异情况如何,是否有一定的可替代性等。明显的,此数据为配对数据,而且对比的数据为定类数据(诊断结果为定类数据),因而需要使用配对卡方检验。
数据结构如下表所示:
A方法 | B方法 | 权重(频数) |
阳性 | 阳性 | 25 |
阳性 | 阴性 | 2 |
阴性 | 阳性 | 11 |
阴性 | 阴性 | 15 |
上表格的数据格式为常见医学格式,即“权重”格式。A方法共有2种结果,B方法共有2种结果,2*2共有4种组合,4种组合分别对应着出现的频数(权重)。
如果是原始数据格式,总共有53名待诊患者,则会有53行,每行代表一名患者。
不论是医学的“权重”格式数据,还是原始数据格式,SPSSAU均可进行计算,区别在于“权重”格式数据需要单独放置权重项到对应框中。
SPSSAU操作示例如下:
当前有两种办法可以诊断癌症,A方法简易且成本低廉但是准确率稍低;B方法结果可靠但操作麻烦且成本较高。共收集53名待诊患者,并且分别进行两种方法诊断,现希望通过研究判断两种诊断方法是否有差异性,即两种方法之间的差异情况如何,是否有一定的可替代性等。研究的核心在于对于数据的差异性。
如果是配对数据,并且对比的数据为定类数据,因而需要使用配对卡方检验,配对卡方是一种更容易理解的说法,如果从数学角度更进一步的称呼上,可能会称之为McNemar检验或者Bowker检验,二者的区别如下表。
配对数据类型 | 检验 |
2*2 | McNemar检验 |
n*n (n >2) | Bowker检验 |
如果配对数据的组别为2即配对四表格,则使用McNemar检验;正如本案例中两种方法均只有阳性和阴性两种结果时,即2*2结构类型;
如果配对数据的组别大于2即配对多分类时,则使用Bowker检验;如果两种方法出现的结果分别是阳性,阴性和不确定共3种时,则为3*3结构类型;
配对卡方与Kappa系数的数据格式保持一致,而且功能上也非常相似;但区别在于,配对卡方倾向于对比配对数据的差异性,Kappa系数用于衡量配对数据的一致性。一个是看差异,一个是看相似一致性。
两种诊断方法分别会有两种结论,阳性和阴性,因此2*2共有4处组合;单独使用一列数据表示每种组合的数量(即权重),数据结构如下表(数字1表示阳性,2表示阴性):
A方法 | B方法 | 权重(频数) |
1 | 1 | 25 |
1 | 2 | 2 |
2 | 1 | 11 |
2 | 2 | 15 |
由于上述数据结构中使用‘权重’加权表示,因而在放置分析项时,应该将权重放在‘加权项’处,如下图所示:
如果说数据没有‘加权’,即共53个病例,总共53行;并且只有2列,分别表示A方法或者B方法的诊断结果;此时则没有加权数据,也不需要进行加权项放置。
配对卡方分析结果 | ||||||
配对 | 名称 | A方法 | 总计 | χ2 | p | |
阳性 | 阴性 | |||||
B方法 | 阳性 | 25 | 11 | 36 | 2.000 | 0.022* |
阴性 | 2 | 15 | 17 | |||
总计 | 27 | 26 | 53 | |||
* p <0.05 ** p <0.01 |
从上表可以看出,A方法和B方法在癌症诊断结果上呈现出0.05水平的显著性(χ2=2.000,p =0.022 <0.05),即说明两种诊断方法的结论上有着明显的差异性。A方法诊断出27名阳性但B方法却是36名;A方法诊断出26名阴性但B方法是17名。两种诊断方法上有着显著性差异,也即说明两种诊断方法并不具有替代关系。
具体文字分析例子如下:
从上表可以看出,A方法和B方法在癌症诊断结果上呈现出0.05水平的显著性(χ2=2.000,p =0.022 <0.05),即说明两种诊断方法的结论上有着明显的差异性。A方法诊断出27名阳性但B方法却是36名;A方法诊断出26名阴性但B方法是17名。两种诊断方法上有着显著性差异,也即说明两种诊断方法并不具有替代关系。
配对卡方与Kappa一致性检验的数据格式是保持一致,而且功能上也有很多相似;二者区别在于配对卡方倾向于对比配对数据的差异性,Kappa系数用于衡量配对数据的一致性。一个是看差异,一个是看相似一致性。
数据结构中如果有权重,此时应该进行加权处理(分析时将权重项放入对应框中即可)。
配对卡方如果是2*2结构时则为McNemar检验,如果为n*n(n>2)的数据结构时则为Bowker检验。
如果本例中A方法有3种结果,B方法也有3种结果,则此时为3*3结构,此时则是使用Bowker检验。
从数学角度上讲:A方法和B方法的结果类别个数一定是完全一样,比如A有3个结果,B一定也是3个结果。下表格中A只会出现2个类别(阳性和阴性),B出现3个类别(阳性,阴性和不确定),此时为2*3;但从算法上,最终也会当成是3*3的结构进行计算。【下表格中最后3行即权重为0对应的3行,此3行不录入也没有问题,SPSSAU会自动进行识别】
A方法 | B方法 | 权重(频数) |
阳性 | 阳性 | 23 |
阳性 | 阴性 | 2 |
阳性 | 不确定 | 2 |
阴性 | 阳性 | 10 |
阴性 | 阴性 | 15 |
阴性 | 不确定 | 1 |
不确定 | 阳性 | 0 |
不确定 | 阴性 | 0 |
不确定 | 不确定 | 0 |
关于‘加权数据格式’的详细说明参考:https://www.spssau.com/helps/otherdocuments/dataformat.html