在社会科学或医学相关研究中,会出现多层次(多水平)层面的跨层数据,比如研究个体是学生,但是学生隶属于学校。也或者:比如针对公司‘团建’,对于团队的合作水平进行打分,有10个裁判(打分者),就有10列,然后有5个团队(比如财务部、人力部、生产部、研发部和办公室),即group有12345,有的团队10人有的8人有的9人有的11有的12,总行数=10+8+9+11+12=50行(全部一起50个成员)。数据结构类似如下:
Group | 成员id | 裁判(打分者1) | 裁判(打分者2) | 裁判(打分者3) | 裁判(打分者4) | ... |
---|---|---|---|---|---|---|
1 | 1 | |||||
1 | 2 | |||||
1 | 3 | |||||
... | ... | |||||
2 | 1 | |||||
2 | 2 | |||||
... | ... |
RWG值:研究团队成员合作水平一致性情况如何;
ICC1:研究单独每个裁判(打分者)的一致性情况;
ICC2:研究5个裁判(打分者)平均一致性的信度情况。
当前有一项关于员工团队合作能力的打分数据,共有10个员工,并且10个员工分成2个组别。关于团队合作能力的评分,其使用6个测量项进行测量(并且使用5级量表打分制)。因而共有10个员工则为10行数据,并且单独使用group来标识组别(1组和2组),6个测量项共计6列。单独还有一列为subject即员工的编号此列数据在分析时不需要使用无分析意义。最终数据格式如下:
针对组内评分者信度rwg值,本案例中其用于研究整体10个成员的得分一致性情况:ICC1值研究每个测量项的得分一致性情况,ICC2值研究6个测量项得分上的一致性情况。事实上rwg值、ICC1值和ICC2值的意义均在于评价一致性情况。但通俗理解来看(从站在角度上),rwg值可理解为研究‘行’数据的一致性,ICC1或ICC2值研究‘列’数据的一致性情况。关于rwg值、ICC1值或ICC2值的计算公式说明如下:
进一步地:
关于ICC1和ICC2的计算公式分别如下,其中MSB表示组间均方,MSW表示组内均方。
除此之外,关于上述3个指标rwg、ICC1和ICC2,它们的常用标准说明如下:
项 | 常用标准 |
---|---|
组内评分者信度 | 通常情况下,rwg值介于0~1之间,如果小于0则看成0,如果大于1则看成1; Rwg值>0.5则说明一致性中等; Rwg值>0.7则说明一致性高; Rwg值大于0.9说明一致性极高 |
组内相关系数ICC1 | 通常情况下>0.5即可 |
组内相关系数ICC2 | 通常情况下>0.5即可 |
本例子中subject即被打分者共分为2组,由group进行标识,并且打分共由6个测量项表示,测量单位为五级量表,因而操作截图如下:
Group为可选项,如果没有group则意味着非跨层数据,那么此时则不会输出组内相关系数ICC1或ICC2值。
SPSSAU共输出3个表格分别说明如下:
名称 | 说明 |
---|---|
Rwg值输出结果 | 输出rwg值及其对应的标准差值,25%,50%和75%中位数值 |
Rwg值输出结果by group | 输出每个group时的rwg值信息等 |
ICC值输出结果 | 输出ICC1和ICC2值等,如果不放入group项则无该表格 |
本次案例结果解读如下:
Rwg值输出结果 | ||||
---|---|---|---|---|
Rwg值 | 标准差SD | P25 | 中位数 | P75 |
0.821 | 0.121 | 0.735 | 0.821 | 0.907 |
上表格输出组内评分者信度rwg值为0.821,通常情况下rwg值大于0.7则意味着一致性水平可以接受,即说明本案例中整体上团队合作得分在6个测量项上具有一致性。接下来可以查看具体每个组别时的组内评分者信度数据。
Rwg值输出结果by group | ||
---|---|---|
group | 样本量 | Rwg值 |
汇总 | 10 | 0.821 |
group对应第1组 | 4 | 0.907 |
group对应第2组 | 6 | 0.735 |
从上表格可以看到:第1组员工,他们的组内评分者信度rwg值为0.907,意味着组内评分一致性很高即第1组员工的得分有着较高的一致性,第2组员工的组内评分者信度值为0.735>0.7,也说明其具有良好的一致性水平即第2组员工的得分有着较高的一致性。
ICC值输出结果 | |||||
---|---|---|---|---|---|
ICC1 | ICC2 | MSB | MSW | F 值 | p 值 |
0.581 | 0.874 | 1.837 | 0.232 | 7.928 | 0.023 |
从上表格可以看到:ICC1测量单一评分者信度,ICC1值为0.581>0.5,并且ICC2值用于测量6个评分项的一致性情况,该值为0.874>0.7,整体说明评分测量具有良好的一致性水平。另外上表格中F 值和p 值为中间计算ICC值时涉及的过程数据,不用过多关注。上表格中MSB值为组间差,MSW值为组内差,F 值=MSB/MSW。
涉及以下几个关键点,分别如下:
Group为可选项,如果没有group则意味着非跨层数据,那么此时则不会输出组内相关系数ICC1或ICC2值。
Rwg常见标准是大于0.5即可,ICC1和ICC2的标准在不同文献中差异可能较大,具体建议以研究者为准。
通常情况下,由于ICC2进行过平均因此误差通常比个体评分的误差小,因此通常情况下ICC1 < ICC2。
不同的文献对ICC1,ICC2的计算上可能不一致,SPSSAU平台使用参考文献如下:
(1) Bliese, P. D. (2000). Within group agreement, non-independence and reliability: Implications for data and analysis. In K. J. Klein & S. W. J. Kozlowski (Eds.), Multilevel theory, research and methods in organizations: Foundations, extensions, and new directions (pp. 349-381). San Francisco: Jossey-Bass.
(2) James, D. L., Demaree, R. G., & Wolf, G. (1984). Estimating within-group interrater reliability with and without response bias. Journal of Applied Psychology, 69, 85-98.
(3) LeBreton, J. M., & Senter, J. L. (2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11, 815-852.
此处ICC与SPSSAU医学研究模块的组内相关系数ICC有密切的相关(下述简称‘医学ICC’),此处计算上完全对应着‘医学ICC’的‘单向随机’,此处是测量平均值是否完全相等,因而原理上是使用‘单向随机’的原理。但有以下不同:
数据格式不同:此处时可针对‘多个打分者’,‘多组被试’进行分析,而‘医学ICC’只针对‘多个打分者’和‘1组被试’;
跨层情况不同:此处时可针对‘多个打分者’,‘多组被试’进行分析,属于跨层数据,而‘医学ICC’并非跨层数据;
应用情况不同:此处时用于跨层数据一致性分析(比如多个打分者、多组被试且每组多个被试);‘医学ICC’可用于多个评价者(比如不同医生,不同仪器,或者不同时间点)对1组被试(该组有多个被试)进行打分,并分析评价者的一致性情况;
二者数据格式在某些特定条件下可以互换使用;共2种情况,第1种情况是:只有‘1个打分者且多组被试且每组内的被试样本一样’则数据进行处理(1行为1个组别,1列为1个被试);第2种情况是:‘多个打分者且多组被试且每组内的被试样本一样’,那么先将‘多个打分者’数据平均得到单独的新列,然后再将据处理即可(与第1种情况处理一致)。
总结:此处ICC用于跨层数据一致性,‘医学ICC’用于非跨层数据一致性分析,如果是跨层数据且满足特定条件时,可进行转换数据格式,然后使用‘医学ICC’分析,最后可得到相同的结果,二者原理一致,应用上有较大区别。
建议:跨层数据研究时使用此处ICC及Rwg值计算;如果是用于多个评价者(比如不同医生,不同仪器,或者不同时间点)的打分一致性,则使用‘医学ICC’即可。