大家好,欢迎来到IT知识分享网。
一、What is 聚类分析?
(一)概念与原理
概念:聚类分析是一种典型的无监督学习, 用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律
特点:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,但所要划分的类是未知的
(二)聚类原理与选择
在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个案分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标。
PS:在数据处理中,注意不要将性别、学历等二值变量或有序变量进行K-means聚类处理。
二、K-means均值聚类
(一)概念与原理
1. 原理
核心:选择聚类中心后根据距离确定分类,再次生成新的聚类中心多次迭代,最终完成分类。
2. 流程图
3. 示意图
4. 优势与不足
优势:
(1)原理比较简单,实现也很容易,收敛速度快。
(2)在对大规模数据集进行聚类分析时,算法聚类较高效且聚类效果较好。
(3)簇与簇之间区别明显时,它的聚类效果很好。
不足:
(1)分类数从初始分类开始就确定不变了,所以要求事先要对样本有足够的了解。不同的初始质心将收敛得到不同的目标函数,可能只能达到局部最优解。
(2)仅限于个案间的聚类,不能对变量进行聚类。
(3)个案间的距离的测量方法使用的是欧式距离的平方,因此只能对连续变量进行聚类。
(4)容易受到离群点的影响
(二)SPSS实操
1.SPSS设置(分析→分类→K均值聚类)
2.结果分析
PS:ANOVA表重点看显著性与F值(描述对聚类贡献率)
3.规范性描述(示例)
三、系统聚类(层次聚类)
(一)概念与原理
1. 原理
首先将一定数量的样本或指标各自看成一类,然后根据样本的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。
核心:合并相似项
2. 分类
3. 流程图
(二)SPSS实操
1. SPSS设置(分析→分类→系统聚类)
2. 结果分析
谱系图:
SPSS运行出的谱系图,可根据自己的需求划分出要聚类的个数,方法是画竖线。如上图,将样本分为两类,一类是北京、上海、天津的发达直辖市,一类是其他省份和直辖市。(k的个数为竖线与谱系图的交点个数)。但k的选取主观性较大,因此我们一般通过应用肘部法则修正系统聚类。
3.肘部法则
(1)原理:
(2)作图:
第一步:将聚合系数(即SPSS集中计划框中的系数)放入到excel表格中。
第二步:对聚合系数进行降序排序。
第三步:在插入的图表中选择散点图。
第四步:对图表进行美化。双击X轴的数据,对其最小值设置为1(最小样本数),最大值设置为30(最大样本数),因为有1-30个样本。
第五步:美化后的图表,加上横坐标和纵坐标的描述。
4. 描述性分析
(1)SPSS分类
最后SPSS表内最后一行会有CLU3,即选定的聚类成员。
(2)描述性分析
第一步:
第二步:
第三步:
四、二阶聚类
(一)原理与条件
1. 原理
分为两个阶段进行聚类,也叫作二步聚类,这两步分别是预聚类和正式聚类。
- 预聚类:构建和修改聚类特征树(CF),将所有观察值事先分为许多小亚类。
- 正式聚类:CF树构造完成后,程序会将第一步的亚类进行再聚类,即用凝聚聚类算法将CF树的全部叶子节点分组。SPSS二阶聚类法会根据AIC和BIC的大小,以及类间最短距离的变化情况来确定最优的聚类数。
2. 适用条件
- 模型中的变量独立。
- 类别变量是多项式分布。
- 连续变量符合正态分布。
(二)SPSS实操
1.SPSS设置(分析→分类→二阶聚类)
案例:研究以下变量对雇员薪金是否有影响
2. 结果分析
根据五个分类变量和聚类情况,进行描述性分析。但是可能存在分类过于粗糙,区分度一般的问题。
3. 可视化结果
(1)模型概要
(2) 可视化分析(单击模型概要即可显示)
可通过查看选择预测变量重要性、聚类大小。
单击单个单元格,可显示单元格分布情况。(分类变量为直方图,连续变量为波形图)
用Ctrl选中“聚类”页面的三个聚类列,可得聚类比较图。分类变量用圆圈表示,显示3个聚类的众数值在类别中的比率。连续变量用方框表示,显示3个聚类的中位数与四分位数。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/150529.html