亲子之家网—你身边的文案专家

亲子之家网—你身边的文案专家

系统聚类按什么聚

59

系统聚类(层次聚类)是一种基于数据相似性进行分组的非监督学习方法,其核心特点是通过构建 层次结构(如树状图或谱系图)来展现数据的聚类过程。以下是具体说明:

一、基本思想

层次结构构建

系统聚类通过逐步合并或分裂样本形成层次结构。初始时,每个样本被视为独立类别,随后根据相似性合并成新类别,重复此过程直至满足停止条件(如达到预设类别数或类间距离收敛)。

分类方向差异

根据合并策略不同,系统聚类分为两种主要方法:

- 自底向上(合并法):

从单个样本开始,逐步合并最相似的样本。 - 自顶向下(分解法):从所有样本作为一类的初始状态,逐步分裂距离最远的样本。

二、关键步骤

初始化

将每个样本视为独立类别,构建初始距离矩阵。

迭代合并/分裂

- 合并法:

计算样本间最小距离,合并距离最小的两个类别,并更新距离矩阵。 - 分裂法:选择距离最远的两个样本作为初始类别,其余样本按最近原则分配,重复类似过程。

终止条件

当达到预设类别数或类间距离变化小于阈值时停止迭代。

三、应用与特点

类别数确定:

可通过聚合系数(如轮廓系数)判断最佳类别数,或通过肘部法则(折线图拐点)辅助确定。

优势:能展示数据的内在层次结构,便于分析不同层次的相似性关系。

局限性:对初始类别数敏感,且计算复杂度较高,适用于中小规模数据集。

四、与其他聚类方法的区别

| 方法类型 | 特点 | 示例算法 |

|----------------|------------------------------------------------------------------------|----------------|

| 系统聚类 | 基于层次结构,需预定义类别数 | 自底向上/自顶向下 |

| K-均值聚类 | 需预定义类别数,通过距离中心化迭代优化 | K-均值 |

| 模糊聚类 | 允许样本属于多个类别,类别边界模糊 | 模糊C均值|

系统聚类通过层次结构直观展示数据分布,适用于需要理解数据层级关系的场景,如生物信息学、市场细分等。