聚类方法

github 代码及笔记：click here

聚类是什么
- 针对给定的样本，依据它们特征的相似度或距离，将其归并到若干个类或簇的数据分析问题
聚类的目的
- 通过得到的类或簇来发现数据的特点或对数据进行处理，在数据挖掘、模式识别等领域有着广泛的作用
聚类属于无监督学习
- 根据相似度或距离划分，初始时多少类并不知道
聚类算法：
- 层次聚类（hierarchical clustering）
  - 聚合法：自下而上，即开始时将每个样本各自分为一个类，之后将相距最近的两类合并，建立一个新的类，重复此操作直至满足条件，得到层次化的类别
  - 分裂法：自上而下，即开始时将所有样本归为一类，之后将已有的类中距离相距最远的样本分到两个新的类，重复此操作直至满足条件，得到层次化的类别
- k均值聚类（k-means clustering）：基于中心的聚类，通过迭代，将样本分到 $ k $ 个类中，使得每个样本与其所属类的中心或均值最近，得到 $ k $ 个平坦的、非层次化的类别，构成对空间的划分

14.1 聚类的基本概念

聚类的对象是观测数据或样本集合。假设有 $ n $ 个样本，每个样本有 $ m $ 个属性的特征向量组成。样本集合表示为:
- 元素 $ x_{ij} $ 表示第 $ i $ 个样本第 $ j $ 个属性，$i = 1 , 2 , ..., n, j = 1, 2, ..., m$
聚类的核心概念是相似度或距离，有多种相似度或距离的定义。因为相似度直接影响聚类的结果，所以其选择是聚类的根本问题

通过聚类得到的类或簇，本质是样本的子集
- 硬聚类方法：一个聚类方法假定一个样本只能属于一个类，或类的交集为空集
- 软聚类方法：一个聚类方法假定一个样本可以属于多个类，或类的交集不为空集
类的特征可以通过不同角度来刻画，常用的特征有下面三种

$ k $ 均值聚类将样本集合划分为 $ k $ 个子集，构成 $ k $ 个类，将 $ n $ 个样本分到 $ k $ 个类中，每个样本到其所属类的中心的距离最小
k均值聚类属于硬聚类，每个样本属于一个类

总体特点
- 基于划分的聚类算法
- 类别数 $k$ 事先指定
- 以欧氏距离平方表示样本之间的距离，以中心或样本的均值表示类别
- 以样本和其所属类的中心之间的距离的总和为最优化的目标函数
- 得到的类别是平坦的、非层次化的
- 算法是迭代算法，不能保证全局最优
收敛性
- 启发式算法，无法保证全局最优
- 初始中心点的选择会影响聚类结果
- 类中心随着训练移动，但是移动不会太大，因为在每一步中，样本分到与其最近的中心的类中
初始类的选择
- 选择不同的初始中心，会得到不同的聚类结果
- 初始中心的先用层次聚类对样本进行聚类，得到 $ k $ 个类是停止
**类别数 $k$ 的选择 **
- 尝试用不同的 $k$ 值聚类
- 一般而言，类别数变小时，平均直径会增加，类别数变大超过某一个值时，平均直径不变，即得到最优的 $k$ 值

Write by zhgqcn

原文地址：https://www.cnblogs.com/zgqcn/p/15118096.html