系统聚类(层次聚类)是一种基于数据相似性进行分组的非监督学习方法,其核心特点是通过构建 层次结构(如树状图或谱系图)来展现数据的聚类过程。以下是具体说明:
一、基本思想
层次结构构建 系统聚类通过逐步合并或分裂样本形成层次结构。初始时,每个样本被视为独立类别,随后根据相似性合并成新类别,重复此过程直至满足停止条件(如达到预设类别数或类间距离收敛)。
分类方向差异
根据合并策略不同,系统聚类分为两种主要方法:
- 自底向上(合并法): 从单个样本开始,逐步合并最相似的样本。 - 自顶向下(分解法)
二、关键步骤
初始化 将每个样本视为独立类别,构建初始距离矩阵。
迭代合并/分裂
- 合并法: 计算样本间最小距离,合并距离最小的两个类别,并更新距离矩阵。 - 分裂法
终止条件 当达到预设类别数或类间距离变化小于阈值时停止迭代。
三、应用与特点
类别数确定:
可通过聚合系数(如轮廓系数)判断最佳类别数,或通过肘部法则(折线图拐点)辅助确定。
优势:能展示数据的内在层次结构,便于分析不同层次的相似性关系。
局限性:对初始类别数敏感,且计算复杂度较高,适用于中小规模数据集。
四、与其他聚类方法的区别
| 方法类型 | 特点 | 示例算法 |
|----------------|------------------------------------------------------------------------|----------------|
| 系统聚类 | 基于层次结构,需预定义类别数 | 自底向上/自顶向下 |
| K-均值聚类 | 需预定义类别数,通过距离中心化迭代优化 | K-均值 |
| 模糊聚类 | 允许样本属于多个类别,类别边界模糊 | 模糊C均值|
系统聚类通过层次结构直观展示数据分布,适用于需要理解数据层级关系的场景,如生物信息学、市场细分等。