学习聚类分析前需掌握几个基本概念。
1、 层次聚类法(又称系统聚类)可生成树状图,观察时应从右向左查看。若在图中竖直方向切割,每条连线左侧对应一个类别,据此可获得分类结果。随后可通过分析各类样本在各变量上的均值、标准差、最大值和最小值等统计指标,评估分类的合理性。除描述性统计外,还可借助方差分析检验不同类别在变量上是否存在显著差异,以进一步验证聚类效果。
2、 使用软件时需留意操作规范与安全提示
3、 若对样本聚类,则在分群中选择个案;若对变量聚类,则在分群中选择变量。
4、 采用ward法进行聚类,对差异较大的原始数据进行标准化处理,选用Z得分方法。
5、 点击保存可将不同分类标签存入原数据窗口。
6、 层次聚类需逐层合并或分裂,适合小数据但效率低;K均值聚类效率高常用于大数据,但无法生成树状图展示聚类过程。
7、 K均值聚类法无法生成树状图,也不能展示所有可能的聚类结果,必须由研究者预先设定聚类的数量。该方法中的k即代表期望划分的类别数目。首先确定初始聚类中心,然后计算各样本与各中心之间的距离,并依据距离远近将样本归入最近的类别。随后,以每一类样本的均值更新聚类中心。基于新的中心位置,重新计算距离并再次分类。这一过程不断迭代,直到满足终止条件:一是达到预设的最大迭代次数(SPSS默认为10次),二是新旧聚类中心之间的最大偏移量小于指定阈值。整个过程依赖初始设定和迭代优化,最终形成稳定的分类结果。
8、 数据差异显著时需先标准化,再基于标准化数据实施k均值聚类分析。
9、 采用标准化处理方式,依次点击分析-描述统计-描述(D),进入界面后选中需标准化的变量,勾选将标准化得分另存为变量(Z),系统将自动生成对应的标准化新变量。
10、 聚类中心表反映各类别在各变量上的均值,用于解读分类特征与实际意义。
11、 方差分析用于检验分类是否合理,以及各类别间变量差异的显著性。
