多数研究时,会对研究数据的分布情况进行查看,比如类别数据性别,可通过频数分析画饼图查看,定量连续数据时,可通过直方图查看正态性情况,或者使用PP/QQ图查看正态性,与此同时,还可使用核密度图直观查看数据分布情况,也可以使用小提琴图或者箱线图等查看数据的分布情况。下述列出几类常用的数据分布特征图形:
当前希望研究人均GDP与居民可支配收入之间的关系,并且使用气泡大小展示可支配收入情况,从而研究各省的竞争实力对比情况。案例数据为2020年相关数据,来源为国家统计局(数据暂不包括香港、澳门和台港这三个地区),数据格式如下:
图形 | 说明 |
---|---|
饼图/圆环图/柱形图/条形图等 | 查看定类数据的分布情况,通常查看百分比占比分布 |
直方图/PP图/QQ图 | 通过图形化查看数据分布,通常可通过图形查看数据正态性情况 |
箱线图/小提琴图 | 图示化展示数据分布特征情况 |
核密度图 | 非参数检验方法,图示化展示数据分布特征情况,相对直方图更加抽象化和直观化 |
当前有一份关于高中生体验身高数据(50个样本),并且包括性别(男和女)和地区(北方和南方)两个特征,现希望查看下身高的分布情况,直观展示身高特征情况。当然默认可使用直方图展示数据分布情况,如下图:
明显地可以看到,高中生身高数据更多集中于1.65~1.75之间,与此同时,还可进一步使用核密度图查看。
核密度图是一种非参数检验方法,其是对直方图的进一步抽象化,但其更加直观,其曲线下面积为1,通常用于连续数据的直观展示,比如年龄的分布情况,身高的分布情况等。核密度图中会涉及带宽值,该值会对分布图的准确性有一定影响,SPSSAU自动计算带宽值时是按照‘大拇指法则’进行,其为非参数检验的内部原理参数值,通常自动让系统计算即可。
如果包括X(比如性别),分析项为身高,那么是想研究不同性别的身高分布情况;
如果不包括X,只有分析项且分析项大于1个,SPSSAU默认会展示每个分析项的核密度图,并且汇总展示所有分析项在一个核密度图中。
本案例操作截图如下:
h带宽图建议不输入,系统默认会以‘大拇指法’进行自动计算。由于暂不区分性别或者地区的身高分布,因而X项不用放入。
SPSSAU共输出图形和自动计算后的h带宽值表格,分别说明如下:
从核密度图可以明显的看到,身高主要集中于1.65~1.75之间,小于1.65或者大于1.75的样本相对均较少。相对于直方图,核密度图得到的结论也一致,二者的功能意义完全一致,但相对更加抽象和直观化。另图形中有展示带宽值h,可按研究者需要修改标题内容,同时下表格展示带宽值。
上述案例中直接针对身高数据进行核密度图展示,如果还希望进一步观察比如不同性别,或者不同地区样本的身高分布情况,便于进行对比。操作和结果如下:
将性别放入X框中,最终得到不同性别群体身高的核密度图对比图如下:
上图可以看到:女生群体主要集中在1.7米左右,非常集中,但是男生群体身高分布较为均匀,各个身高分布段都比较均匀,并没有特别的固定集中身高区间。
涉及以下几个关键点,分别如下:
SPSSAU核密度图带宽值计算使用‘Silverman大拇指法则’,并且默认使用高斯正态核密度公式进行计算核密度值。
核密度图用于数据分布展示时使用,通常是针对连续数据更加适合,与此同时,很多研究方法时也会使用到核密度图,比如倾向得分匹配PSM法,RDD断点回归时。
SPSSAU默认提供高斯核,全部核函数计算公式如下: