聚类分析是通过数据建模简化数据的一种方法,“物以类聚,人以群分”正是对聚类分析最好的诠释。从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类。具体聚类方式的概括如下表:
聚类方式 | 数据类型 | 聚类算法名称 |
---|---|---|
按样本(个案) | 定量 | K-means聚类 |
按样本(个案) | 定量和定类,或仅定类 | K-prototype聚类 |
按变量(标题) | 定量 | 分层聚类 |
如果是按样本聚类,则使用SPSSAU的进阶方法模块中的“聚类分析”功能,其会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
如果是按变量(标题)聚类,此时应该使用分层聚类,并且结合聚类树状图进行综合判定分析,得出科学分析结果。比如当前有8个裁判对于300个选手进行打分,试图想对8个裁判进行聚类,以挖掘出裁判的打分偏好风格类别情况。此时则需要进行分层聚类。
1:仅针对定量数据进行分层聚类;
2:如果数据的单位有较大差别,可首先对于数据进行标准化处理后,针对标准化数据进行分层聚类;
3:由于均为定量数据,因而从原理角度上,分层聚类时应该使用Pearson相关系数去度量距离,相关系数值越大说明越紧密,则说明距离越近,相关系数值越小说明越疏远,说明距离越远;SPSSAU默认使用Pearson相关系数表示距离大小;
4:SPSSAU进行分层聚类时使用组平均距离法进行聚类;通俗地讲即首先将相关性最强的两项聚成一类(第一个合并簇),接着找出与该“合并簇”相关性最强的第三项,聚类成第二个合并簇,接着为第三个合并簇,依次循环迭代此过程,直至结束。
当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。总共8个裁判共有8列数据,并且共有300行。由于打分全部均是从1到10分,8列数据的单位均一样,因此在分析之前不需要进行标准化数据(当然进行标准化处理也没有问题)。
聚类分析是“物以类聚,人以群分”的研究方法,从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类。具体聚类方式的概括如下表:
聚类方式 | 数据类型 | 聚类算法名称 |
---|---|---|
按样本(个案) | 定量 | K-means聚类 |
按样本(个案) | 定量和定类,或仅定类 | K-prototype聚类 |
按变量(标题) | 定量 | 分层聚类 |
针对分层聚类,涉及理论或注意项如下:
1:仅针对定量数据进行分层聚类;
2:如果数据的单位有较大差别,可首先对于数据进行标准化处理后,针对标准化数据进行分层聚类;
3:由于均为定量数据,因而从原理角度上,分层聚类时应该使用Pearson相关系数去度量距离,相关系数值越大说明越紧密,则说明距离越近,相关系数值越小说明越疏远,说明距离越远;SPSSAU默认使用Pearson相关系数表示距离大小;
4:SPSSAU进行分层聚类时使用组平均距离法进行聚类;通俗地讲即首先将相关性最强的两项聚成一类(第一个合并簇),接着找出与该“合并簇”相关性最强的第三项,聚类成第二个合并簇,接着为第三个合并簇,依次循环迭代此过程,直至结束。
本案例中总共涉及8个标题,SPSSAU操作截图如下:
SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。
SPSSAU会首先输出聚类项的基本描述情况,接着输出每项的聚类类别归属情况;并且输出树状图,如下所述:
聚类项描述分析 | ||||||
名称 | 样本量 | 最小值 | 最大值 | 平均值 | 标准差 | 中位数 |
裁判1 | 300 | 7.000 | 10.000 | 8.496 | 0.867 | 8.500 |
裁判2 | 300 | 7.100 | 10.000 | 8.918 | 0.820 | 9.000 |
裁判3 | 300 | 7.000 | 9.800 | 8.085 | 0.817 | 8.000 |
裁判4 | 300 | 7.200 | 9.900 | 8.970 | 0.677 | 9.100 |
裁判5 | 300 | 7.000 | 9.500 | 8.038 | 0.674 | 7.900 |
裁判6 | 300 | 7.000 | 10.000 | 8.876 | 0.959 | 9.100 |
裁判7 | 300 | 7.000 | 10.000 | 8.181 | 0.979 | 8.000 |
裁判8 | 300 | 7.000 | 10.000 | 8.470 | 1.038 | 8.400 |
上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分以上。
上表格中的值与聚类的原理基本没有关联性,请勿将上表格信息与聚类结果产生联系
聚类类别分布表 | |
名称 | 所属类别 |
裁判8 | Cluster_1 |
裁判5 | Cluster_2 |
裁判3 | Cluster_2 |
裁判7 | Cluster_2 |
裁判1 | Cluster_3 |
裁判6 | Cluster_3 |
裁判2 | Cluster_3 |
裁判4 | Cluster_3 |
总共聚类为3个类别,以及具体分析项的对应关系情况。在上表格中展示出来,上表格可以看出:裁判8单独作为一类;裁判5,3,7这三个聚为一类;以及裁判1,6,2,4作为一类。
聚类类别与分析项上的对应关系可以在上表格中得到,同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字,这个需要结合对应有关系情况,自己单独进行命名。
上图为聚类树状图的展示,聚类树状图是将聚类的具体过程用图示法手法进行展示;最上面一行的数字仅仅是一个刻度单位,代表相对距离大小;一个结点表示一次聚焦过程。
树状图的解读上,建议单独画一条垂直线,然后对应查看分成几个类别,以及每个类别与分析项的对应关系。比如上图中,红色垂直线最终会拆分成3个类别;第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。
当然在分析时也可以考虑分成2个类别,此时只需要对应将垂直线移动即可,如下图:
上图展示出仅分为2个类别时的情况;如果聚类成2个类别;此时裁判8单独作为一个类别;裁判5,4,7,1,6,2,4会单独聚为一类。
如果是聚为四类;从上图可看出,明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适(上图中的裁判1与6/2/4);但是如果分成4类,此时裁判1会单独成一类。所以画垂直线无法区分出类别。
因而综合分析来看,最终聚类为3个类别最为适合。
具体文字分析例子如下:
本次研究共涉及8个裁判对于300个选手的打分数据,打分从1到10分;并没有量纲问题,因而对平数据不需要进行标准化处理(特别提示:如果有量纲单位问题,最好先进行标准化处理)。使用SPSSAU 13.0版本软件进行研究;具体分层聚类时使用Pearson相关系数度量距离大小,同时使用组平均距离法进行分析。
结合聚类树状图进行分析,如果聚类为一个类别,此时其中一个类别仅对应1项,另外一个类别对应7项;如果聚类为四个类别,其中有一项无法很好的区分成一类;最终聚类为三类最为合适,第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。
针对分层聚类,需要注意以下几点:
1:针对定量数据进行分析;
2:如果数据量纲不同(即单位不一致),分析前一般需要对所有分析项进行标准化处理(SPSSAU的生成变量->标准化功能);
3:分层聚类使用Pearson系数度量距离大小,以及使用组平均距离法进行聚类;
4:分层聚类出来,具体聚成几个类别较好,建议结合聚类树状图和实际数据情况进行分析对比。