聚类分析用于将样本进行分类处理,通常是以定量数据作为分类标准;用户可自行设置聚类数量,如果不进行设置,系统会提供默认建议;通常情况下,建议用户设置聚类数量介于3~6个之间。
第一步:进行聚类分析设置
第二步:结合不同聚类类别人群特征进行类别命名
分析项 | 聚类分析说明 |
---|---|
网购满意度20个题项 | 根据网购满意度情况判定,当前市场上共有几类人群?比如满意度差,一般,满意度高三类人群 |
聚类类别 | 频数 | 百分比(%) |
聚类类别_1 | 82 | 41.4 |
聚类类别_2 | 61 | 30.8 |
聚类类别_3 | 55 | 27.8 |
合计 | 198 | 100.0 |
聚类类别(平均值±标准差) | F | p | |||
类别1(n=82) | 类别2(n=61) | 类别3(n=55) | |||
分析项1 | 3.23±1.33 | 2.88±0.73 | 2.63±0.81 | 3.73 | 0.03* |
分析项2 | 2.62±1.48 | 2.57±1.21 | 2.32±0.76 | 0.56 | 0.58 |
分析项3 | 2.14±1.10 | 2.16±0.76 | 2.25±0.9 | 0.13 | 0.88 |
分析项4 | 0.88±0.91 | 3.32±1.02 | 3.82±0.85 | 2.67 | 0.07 |
分析项5 | 3.75±1.06 | 3.56±0.80 | 3.82±0.76 | 0.97 | 0.38 |
分析项6 | 4.56±0.72 | 4.42±0.61 | 4.57±0.68 | 0.72 | 0.49 |
分析项7 | 4.45±0.84 | 4.46±0.66 | 4.55±0.83 | 0.19 | 0.83 |
分析项8 | 4.18±0.96 | 4.24±0.67 | 4.36±0.74 | 0.46 | 0.63 |
* p <0.05 ** p <0.01 |
聚类分析的具体聚类方法为K均值聚类;SPSSAU默认将聚类生成的类别保存起来,命名格式为:聚类类别_K均值聚类_******,并且结合聚类类别与聚类分析项进行方差分析,并且输出表格。
同时SPSSAU会输出聚类项的重要性对比图;在上表格中p 值越小时,说明类别间的差异越大,也即说明对应的该聚类项对于聚类的贡献会越大。正是基于此原理,SPSSAU对于聚类项的p 值进行处理成重要性指标,并且以图形输出。具体聚类项的重要性指标计算公式如下:-log10(p ) / max[-log10(p )];其中p 即为方差分析表格中的p 值,max[-log10(p )]代表-log10(p )的最大值。
Kmeans聚类(K均值聚类)算法的第一步是:“预将数据分为K组,则随机选取K个对象作为初始的聚类中心”,此第一步骤带有一定的随机性,但聚类算法的后续步骤会不停的迭代,最终得到最佳结果;不同的软件第一步随机种子选取会有不同,算法后续迭代会让第一步的‘随机性’不停的减弱,最终基本趋于一致。正是由于第一步的‘随机性’,因而任何不同的软件使用一样的算法,但聚类结果均有可能不同(但聚类结果中的类别划分绝大多数应该完全一致),这是正常合理且是由于算法决定的。
聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。
聚类中心是聚类类别的中心点情况,比如某类别时年龄对应的聚类中心为20,意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义,它是聚类算法随机选择的聚类点,如果需要查看聚类中心情况,需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小,其仅为聚类算法的计算值而已。
如果说聚类项中包括定类项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。
定类数据是不能进行标准化处理的,即SPSSAU选项中‘标准化’选中时只针对放入定量框中的数据有效。
在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。
可通过散点图直观展示聚类效果,使用任意两个聚类指标进行散点图绘制(可视化模块里面的散点图),并且在‘颜色区分(定类)[可选]框中放入‘聚类类别’项,以查看不同类别时,两两指标的散点效果。
k-prototype聚类时可结合平均轮廓系数值判断聚类个数,轮廓系数值介于[-1,1]之间,该值越大意味着越优(类似地,Kmeans聚类时也可使用该指标),各聚类类别的特征是否与实际相符,各聚类类别的样本量是否均匀,以及分析结果中方差分析和卡方检验的结果综合判断聚类个数。
k-prototype聚类时包括定类数据,此时计算SSE值无实际意义,暂无文献提及k-prototype聚类时SSE值的计算,因而SPSSAU暂未提供。如果希望进行聚类个数优劣判断,可使用平均轮廓系数值,该值越大越好。
出现此提示时,说明内部算法计算时发现某个聚类类别无法得到样本划分,此时建议减少聚类类别个数后再次分析即可。