机器学习(三) ——k-近邻算法基础
机器学习(三)——k-近邻算法基础
(原创内容,转载请注明来源,谢谢)
一、概述
k近邻算法(kNN),是监督学习的一种,主要用于分类,通过测量不同特征值之间的举例进行分类。
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
使用数据范围:数值型和标称型。
二、工作原理
1、原理
存在一个训练样本集,其中每个数据都存在标签,即可以知道数据的每个特征和其对于的分类结果。
现输入没有标签的数据,将新数据的每个特征值和样本集的数据对应特征进行比较,计算出距离最近的前k个数据(k近邻的k的出处)。比较这k个数据,将分类结果出现次数最多的结果,作为最终的结果。k通常不大于20。
2、距离计算公式
假设数据A有n个特征(x11,x12,x13…x1n),数据B的n个特征值为(x21,x22,x23…x2n),则AB两点的距离为
3、knn举例
假设数据有两个特征,数据集3个数,A(1,1,1),特征为x;B(0,1,0),特征为y;C(0,0,1),特征为y。则新加入的一个点D(1,1,0),要确定其特征,则需要计算AD、BD、CD三者的距离,取前k个值(由于这里数据太少,就取第一个值),即为D的特征。
三、kNN实施过程
对于未知类别属性,加入数据集,每次都需要执行以下操作:
1、计算已知类别数据集中的点与当前点之间的距离。
2、按距离的次序从小到大排序。
3、取排序结果的前k个值。
4、确定前k个值出现的频率。
5、返回频率最高的分类,即为分类结果。
四、代码实现(Python)
1、实现部分(文件名kNN.py)
1)引入python的numpy处理库以及operator库
from numpy import *
import operator
2)#训练数据集,特征2个,并且有对应的分类结果
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A', 'A', 'B', 'B']
return group, labels
3)训练和测试函数,输入待分类数据、训练集、对应分类结果、k值
def classify0(inX, dataSet, labels, k):
#计算距离
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
#排序
sortedDistIndicies = distances.argsort()
classCount = {}
#取排序结果前k个,确认分类结果出现最多的数据
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
sortedClassCount= sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
returnsortedClassCount[0][0]
4)测试
def testsimpleknn():
group,labels = createDataSet()
result = classify0([0,0],group,labels,3)
return result
2、执行
在linux系统,进入python,输入import kNN,kNN.testsimpleknn(),结果是B,表示[0,0]数据会被分到特征值B。
——written by linhxx 2017.12.28
- Angularjs基础(十一)
- Silverlight 2 的基础XAML语法学习
- TextView显示html文件中的图片
- 继百度、阿里之后,农业也刮起人工智能风,看它们都干了些啥?
- Windows Server 2008 与 .NET Framework 的版本之间有什么关系
- asp.net mvc相关开源项目推荐
- Android监听来电和去电
- PostCSS 插件postcss-lazyimagecss:自动填写width / height 属性
- Angularjs基础(十)
- Mac 中JetBrain 系列IDE 的配置文件同步(通过Dropbox)
- 面向服务架构(SOA)和企业服务总线(ESB)
- UPS宣布加入货运区块链联盟 价值万亿的物流行业未来将无纸化?
- Android中动态更新ListView
- 关于机器学习,这可能是目前最全面最无痛的入门路径和资源!
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.6):基本数据类型及字符集编码(字符编码和char型)
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.6):基本数据类型及字符集编码(整型、浮点型、布尔型)
- 多图详解Spring框架的设计理念与设计模式
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.2-3.5):标识符、关键字、注释、变量及常量
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.1):一个简单的例子
- 详解Java解析XML的四种方法
- 《Java从入门到失业》第四章:类和对象(4.6):类路径
- 《Java从入门到失业》第四章:类和对象(4.5):包
- 《Java从入门到失业》第四章:类和对象(4.4):方法参数及传递
- 《Java从入门到失业》第四章:类和对象(4.3):一个完整的例子带你深入类和对象
- 《Java从入门到失业》第四章:类和对象(4.2):String类
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.9):数组(数组基本使用、数组的循环、数组拷贝、数组排序、多维数组)
- Establishing SSL connection without server identity verification is not recommended
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.8):流程控制(循环语句、while语句、for语句)
- 《Java从入门到失业》第三章:基础语法及基本程序结构(3.8):流程控制(选择语句、if-else语句、switch语句)