在数据分布展示时,可使用箱线图和小提琴图,相对箱线图,小提琴图可展示出数据分布的轮廓情况,关于SPSSAU中箱线图和小提琴图的说明分别如下:
箱线图时,其目的更多在于查看数据的分布,以及是否有异常值;如果数据超过上限数值,也或者小于下限数值,那么就为异常值。与此同时,箱线图可直观展示数据分布情况,比如最集中的最中间50%数据(即25%分位数 ~ 75%分位数),以及可查看最中间状态的数据(中位数);
对比而言,小提琴图较少关注于异常值。其更多关注数据的分布情况,包括分布轮廓和分布区域,比如最集中的中间50%数据(即25%分位数 ~ 75%分位数),也或者95%的集中数据(即2.5%分位数 ~ 97.5%分位数)。
当前有一份关于高中生体验身高数据(50个样本),并且包括性别(男和女)和地区(北方和南方)两个特征,现希望查看下身高的分布情况,直观展示身高特征情况。当前可选使用4种图形,包括直方图、小提琴图、箱线图和小提琴图,分别如下:
明显地可以看到,高中生身高数据更多集中于1.65~1.75之间,与此同时,还可使用箱线图和小提琴图展示数据分布情况,分别如下:
从小提琴图可以看到:1.7左右身高是较为集中区域,因为1.7米时轮廓明显更宽,以及最小身高值在1.6左右。
小提琴是是箱线图和核密度图的集合,其可通过箱线思维展示数据的各个百分位点,与此同时,还可使用核密度图展示数据分布的‘轮廓’效果,‘轮廓’越大,即意味着数据越集中于该处,反之则说明该处时数据越少。
如果包括X(比如性别),分析项为身高,那么是想研究不同性别的身高分布情况;
如果不包括X,只有分析项且分析项大于1个,SPSSAU默认会展示每个分析项的核密度图,并且汇总展示所有分析项在一个小提琴图中。
本案例操作截图如下:
由于暂不区分性别或者地区的身高分布,因而X项不用放入。
从上图可以看到:50%的数据介于1.653 ~ 1.784米之间。而且明显的可以看到,身高主要集中于1.694(即中位数)附近。
上述案例中直接针对身高数据进行小提琴图展示,如果还希望进一步观察比如不同性别,或者不同地区样本的身高分布,即将不同类别小提琴图展示在一张图里面,比如现希望查看不同地区时身高的小提琴图,操作和结果如下:
将地区放入X框中,最终得到不同地区群体身高的小提琴图对比图如下:
上图可以看到:北方群体身高分布较为均匀,各个身高值都相对较为均匀,但是南方群体时,稿主要集中于1.65米左右,相对较为集中,两头小(尤其是较高身高分布)。即北方群体时各类身高都有,但南方群体集中性较强,较少出现非常高,非常矮的情况相对较多。
涉及以下几个关键点,分别如下:
SPSSAU小提琴图时,中间值共展示5个值,分别是2.5%分位数,25%分位数,50%分位数(中位数),75%分位数和97.5%分位数。可能与其它软件的展示不完全一致;除此之间,SPSSAU小提琴图时并不展示异常值,如果需要单独图示查看异常值,建议可使用箱线图。