SPSS在线_SPSSAU_SPSS聚类分析

聚类分析

分析方法视频解读：B站优酷

B站优酷聚类分析注意事项

聚类分析用于将样本进行分类处理,通常是以定量数据作为分类标准;用户可自行设置聚类数量,如果不进行设置,系统会提供默认建议;通常情况下,建议用户设置聚类数量介于3~6个之间。

第一步:进行聚类分析设置
第二步:结合不同聚类类别人群特征进行类别命名

分析项	聚类分析说明
网购满意度20个题项	根据网购满意度情况判定,当前市场上共有几类人群?比如满意度差,一般,满意度高三类人群

分析结果表格示例如下(SPSSAU同时会生成饼图/圆环图/柱形图/条形图/折线图等):

聚类类别	频数	百分比(%)
聚类类别_1	82	41.4
聚类类别_2	61	30.8
聚类类别_3	55	27.8
合计	198	100.0

	聚类类别(平均值±标准差)			F	p
	类别1(n=82)	类别2(n=61)	类别3(n=55)	F	p
分析项1	3.23±1.33	2.88±0.73	2.63±0.81	3.73	0.03*
分析项2	2.62±1.48	2.57±1.21	2.32±0.76	0.56	0.58
分析项3	2.14±1.10	2.16±0.76	2.25±0.9	0.13	0.88
分析项4	0.88±0.91	3.32±1.02	3.82±0.85	2.67	0.07
分析项5	3.75±1.06	3.56±0.80	3.82±0.76	0.97	0.38
分析项6	4.56±0.72	4.42±0.61	4.57±0.68	0.72	0.49
分析项7	4.45±0.84	4.46±0.66	4.55±0.83	0.19	0.83
分析项8	4.18±0.96	4.24±0.67	4.36±0.74	0.46	0.63
* p <0.05 ** p <0.01

特别提示
聚类分析的具体聚类方法为K均值聚类；SPSSAU默认将聚类生成的类别保存起来，命名格式为：聚类类别_K均值聚类_******，并且结合聚类类别与聚类分析项进行方差分析，并且输出表格。
同时SPSSAU会输出聚类项的重要性对比图；在上表格中p 值越小时，说明类别间的差异越大，也即说明对应的该聚类项对于聚类的贡献会越大。正是基于此原理，SPSSAU对于聚类项的p 值进行处理成重要性指标，并且以图形输出。具体聚类项的重要性指标计算公式如下：-log10(p ) / max[-log10(p )]；其中p 即为方差分析表格中的p 值，max[-log10(p )]代表-log10(p )的最大值。

疑难解惑

聚类分析与其它软件结果不一致？
Kmeans聚类（K均值聚类）算法的第一步是：“预将数据分为K组，则随机选取K个对象作为初始的聚类中心”，此第一步骤带有一定的随机性，但聚类算法的后续步骤会不停的迭代，最终得到最佳结果；不同的软件第一步随机种子选取会有不同，算法后续迭代会让第一步的‘随机性’不停的减弱，最终基本趋于一致。正是由于第一步的‘随机性’，因而任何不同的软件使用一样的算法，但聚类结果均有可能不同（但聚类结果中的类别划分绝大多数应该完全一致），这是正常合理且是由于算法决定的。

聚类分析前是否需要进行标准化？
聚类算法是根据距离进行判断类别，因此一般需要在聚类之前进行标准化处理，SPSSAU默认是选中进行标准化处理。数据标准化之后，数据的相对大小意义还在（比如数字越大GDP越高），但是实际意义消失了。

聚类中心是什么？
聚类中心是聚类类别的中心点情况，比如某类别时年龄对应的聚类中心为20，意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义，它是聚类算法随机选择的聚类点，如果需要查看聚类中心情况，需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小，其仅为聚类算法的计算值而已。

k-prototype聚类是什么？
如果说聚类项中包括定类项，那么SPSSAU默认会进行K-prototype聚类算法（而不是kmeans算法）。定类数据不能通过数字大小直接分析距离，因而需要使用K-prototype聚类算法。

聚类分析时‘标准化’选项对定类数据有效吗？
定类数据是不能进行标准化处理的，即SPSSAU选项中‘标准化’选中时只针对放入定量框中的数据有效。

聚类分析时SSE是什么意思？
在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值，该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，而且如果同样的数据，聚类类别越多则SSE值会越小（但聚类类别过多则不便于分析）。SSE指标可用于辅助判断聚类类别个数，建议在不同聚类类别数量情况下记录下SSE值，然后分析SSE值的减少幅度情况，如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大，那么此时选择4个聚类类别较好。

SPSSAU聚类分析时，聚类效果的图示化？
可通过散点图直观展示聚类效果，使用任意两个聚类指标进行散点图绘制(可视化模块里面的散点图)，并且在‘颜色区分(定类)[可选]框中放入‘聚类类别’项，以查看不同类别时，两两指标的散点效果。

k-prototype聚类时如何选择聚类个数？
k-prototype聚类时可结合平均轮廓系数值判断聚类个数，轮廓系数值介于[-1,1]之间，该值越大意味着越优（类似地，Kmeans聚类时也可使用该指标），各聚类类别的特征是否与实际相符，各聚类类别的样本量是否均匀，以及分析结果中方差分析和卡方检验的结果综合判断聚类个数。

k-prototype聚类时定类数据如何计算SSE值？
k-prototype聚类时包括定类数据，此时计算SSE值无实际意义，暂无文献提及k-prototype聚类时SSE值的计算，因而SPSSAU暂未提供。如果希望进行聚类个数优劣判断，可使用平均轮廓系数值，该值越大越好。

聚类分析时提示‘聚类达不到目标数量’？
出现此提示时，说明内部算法计算时发现某个聚类类别无法得到样本划分，此时建议减少聚类类别个数后再次分析即可。