Kmeans

时间:2019-08-26
本文章向大家介绍Kmeans,主要包括Kmeans使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

聚类算法

主要的应用场景:可以使用聚类算法,按照相似性,以及结构性的概念,来对数据进行组织

重要的应用:对数据进行无监督的预分类,面对一个复杂的分类问题,可以使用聚类算法,首先对手上的数据进行预分类,对聚类算法得出的每一类,应用一个不同的分类模型,最后把这些模型的结果组合起来得到最后一个组合的分类模型

聚类算法分为

​ 分割型聚类:把给定的数据点分割到不同的类中

​ 层次聚类:把数据分层,得到一个树状的结构,这个结构动态的显示了类别与类别之间的嵌套关系

聚类算法的作用:进行数据压缩

Hard-Kmeans

Hard kmeans 分为 kmeans 和 k-medoids

kmeans的缺点:

  1. 聚类中心不一定属于数据集
  2. 使用了 L2 距离,就是平方了,很容易被噪声影响

对于kmeans算法的优化,k-medoids算法,改进之处

  1. 限制聚类中心一定要来自数据集
  2. 使用 L1 距离
  3. 不过k-medoids算法因为中心一定要来自于数据集,所以更新质心的算法复杂度是O(n^2)

kmeans的扩展:soft-kmeans

Soft-Kmeans

Hard-Kmeans 本质上就是求取那几个中心点可以使得这个簇中的点到属于它的中心点之和最小,

损失函数:

换一种视角来看这个损失函数

原文地址:https://www.cnblogs.com/Liangzhuoxuan/p/11411946.html