简述【聚类算法】
所谓人以类聚,物以群分。人都喜欢跟自己像的人聚在一起,这些人或者样子长得比较像,或者身高比较像,或者性格比较像,或者有共同的爱好,也就是身上有某些特征是相似的。
而跟自己像的人聚在一起的过程,其实就是寻找朋友的过程,比如A认识B,因为跟B兴趣相近于是成为了朋友,通过B又认识了C,发现兴趣较一致于是也成为了朋友,那么ABC三个人就是一个朋友群,这个朋友群的形成,是自下而上的迭代的过程。在100个人当中,可能有5个朋友群,这5个朋友群的形成可能要2个月。
而聚类算法,跟以上的过程很像。
聚类算法,是把距离作为特征,通过自下而上的迭代方式(距离对比),快速地把一群样本分成几个类别的过程。
有人可能会说,干嘛要聚类啊,肉眼看猪是猪牛是牛这不一下就分开了么,那如果是一万头猪跟牛,你能一下分开么?
又有人说猪跟牛长的那么不一样,一下就看出来了,还用机器?其实猪跟牛看的出分别是因为他们的外形太不一样。实际上样本可能有几个甚至几十个维度,光对比其中1,2个维度基本分不出差别。
所以聚类算法,一般是面向大量的,同时维度在2个或2个以上的样本群。
前面讲到,聚类算法是根据样本之间的距离来将他们归为一类的,这个距离不是普通的距离,理论上叫做欧氏距离。
为什么不用普通的距离就好,用这么拗口的欧式距离?那是为了衡量高于三维空间的样本之间的距离。在二维和三维空间里,欧式距离就是我们理解的普通的距离。
在多维空间里,假设两个样本为a(x1,x2,x3,x4...xn),b(y1,y2,y3,y4...yn)。那么他们之间的欧式距离的计算公式是
那么聚类算法,是怎么通过迭代的方式,将样本聚成几个类别的呢?
有一种最经典的K-Means聚类方法,他是这样运作的:
1、在样本中随机选择K个点,作为每个类别的初始中心点,这K是自己定的,假如你想将样本分成3个类K就等于3,4个类K就等于4; 2、计算所有样本离这K个初始中心点的距离并分别进行比较,选出其中最近的距离并把这个样本归到这个初始中心点的类别里,即总共划分成K个类别; 3、舍弃原来的初始中心点,在划分好的K个类别里分别计算出新的中心点,使得这些中心点距离他类别里的所有样本的距离之和最小; 4、判断新获得的中心点是否与旧中心点一样,如不一样则回到第2步,重新计算所有样本离这K个新的中心点的距离并进行比较,选出其中最近的距离并归到这个新的中心点的类别里,继续下面的步奏;如一样则完成,即收敛。
可以用下面的图很好地说明
有ABCDE5个样本,一开始选定右边的2个初始中心点,K=2,大家颜色都不一样,谁都不服谁;
5个样本分别对比跟2个初始中心点的距离,选距离近的傍依,这时5个样本分成红黑2群;
然后开始换老大啦,2个初始中心点消失,重新在2个类分别中心的位置出现2个新的中心点,这2个新的中心点离类别里样本的距离之和必须是最小的;
新的老大出现,类别的划分也不一样啦,C开始叛变,皈依新老大,因为他离新老大更近一点;
新的老大消失,新新老大出现,发现划分的类别没有变化,帮派稳定,于是收敛。
用Python写了一个简单的聚类算法:
import matplotlib.pyplot as plt
import random
import math
from copy import copy
#寻找新的中心点的函数
def new(group):
minimum=10000
o=[]
for x1 in range(min(group['x']),max(group['x'])):
for y1 in range(min(group['y']),max(group['y'])):
j=0
red_sum=0
while j<=len(group['x'])-1:
red_sum+=math.sqrt((group['x'][j]-x1)**2+(group['y'][j]-y1)**2)
j+=1
o.append(red_sum)
if(red_sum<minimum):
minimum=copy(red_sum)
x2=copy(x1)
y2=copy(y1)
return x2,y2
#根据中心点聚类并且着色的函数
def color(a,b,x,y):
i=0
red={'x':[],'y':[]}
blue={'x':[],'y':[]}
black={'x':[],'y':[]}
while i<=90:
distance0=math.sqrt((int(a[i])-x[0])**2+(int(b[i])-y[0])**2)
distance1=math.sqrt((int(a[i])-x[1])**2+(int(b[i])-y[1])**2)
distance2=math.sqrt((int(a[i])-x[2])**2+(int(b[i])-y[2])**2)
if (min(distance0,distance1,distance2)==distance0):
plt.plot(a[i],b[i],'ro',color='red')
red['x'].append(int(a[i]))
red['y'].append(int(b[i]))
elif (min(distance0,distance1,distance2)==distance1):
plt.plot(a[i],b[i],'ro',color='blue')
blue['x'].append(int(a[i]))
blue['y'].append(int(b[i]))
else:
plt.plot(a[i],b[i],'ro',color='black')
black['x'].append(int(a[i]))
black['y'].append(int(b[i]))
i+=1
return red,blue,black
def main():
#读取数据
file=open('d:/kmeans/data.txt')
a=[]
b=[]
for line in file.readlines():
data=line.strip().split(',')
a.append(data[0])
b.append(data[1])
#随机选取3个初始中心点
x=[random.randint(1,20),random.randint(1,20),random.randint(1,20)]
y=[random.randint(1,20),random.randint(1,20),random.randint(1,20)]
red,blue,black=color(a,b,x,y)
plt.plot(x[0],y[0],'x',color='red',markersize=15)
plt.plot(x[1],y[1],'x',color='blue',markersize=15)
plt.plot(x[2],y[2],'x',color='black',markersize=15)
plt.axis([0,25,0,25])
plt.show()
#循环执行函数,直到收敛
while (x[0],y[0]!=new(red)) or (x[1],y[1]!=new(blue)) or (x[2],y[2]!=new(black)):
x[0],y[0]=new(red)
x[1],y[1]=new(blue)
x[2],y[2]=new(black)
red,blue,black=color(a,b,x,y)
plt.plot(x[0],y[0],'x',color='red',markersize=15)
plt.plot(x[1],y[1],'x',color='blue',markersize=15)
plt.plot(x[2],y[2],'x',color='black',markersize=15)
plt.axis([0,25,0,25])
plt.show()
file.close()
if __name__=='__main__':
main()
第一次聚类时,分布是这样的
第二次聚类时,分布是这样的
收敛时,分布是这样的
- Java盲点解析
- iKcamp|基于Koa2搭建Node.js实战(含视频)☞ 解析JSON
- iKcamp|基于Koa2搭建Node.js实战(含视频)☞ 处理静态资源
- iKcamp|基于Koa2搭建Node.js实战(含视频)☞ 视图Nunjucks
- iKcamp|基于Koa2搭建Node.js实战(含视频)☞ 代码分层
- iKcamp|基于Koa2搭建Node.js实战(含视频)☞ HTTP请求
- ubuntu中安装tomcat
- python文件操作
- Owasp测试4.0手册
- 推荐一款Web渗透测试数据库
- 【提莫】一个域名收集及枚举工具
- chmod: changing permissions of `/usr/local/bin/...
- a windows service with the name MYSQL already e...
- NameError: name 'admin' is not defined(彻底解决方案)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Ubuntu16.04搭建NFS 文件共享服务器的方法
- 详解linux pwm驱动编写
- Ubuntu 16.04 LTS系统里中文txt文件打开的问题解决
- linux nand flash驱动编写
- 在Linux中使用Vundle管理Vim插件的方法
- 详解linux添加硬盘分区挂载教程
- CentoS6.5环境下redis4.0.1(stable)安装和主从复制配置方法
- 详解linux dma驱动编写
- CentOS6.5环境安装nginx服务器及负载均衡配置操作详解
- 详解linux 驱动编写(sd卡驱动)
- Centos 6.9环境下创建用户及删除用户的方法
- 详解linux驱动编写(入门)
- Ubuntu使用国内源出现Hash Sum mismatch错误的解决
- CentOS基于nginx反向代理实现负载均衡的方法
- CentOS7服务器环境下vsftpd安装及配置方法