python代码实现ID3决策树算法
时间:2019-04-11
本文章向大家介绍python代码实现ID3决策树算法,主要包括python代码实现ID3决策树算法使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
本文实例为大家分享了python实现ID3决策树算法的具体代码,供大家参考,具体内容如下
''''' Created on Jan 30, 2015 @author: 史帅 ''' from math import log import operator import re def fileToDataSet(fileName): ''''' 此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签 参数: fileName:存放样本集数据的文件路径 返回值: dataSet:样本集数据组成的二维数组 ''' file=open(fileName, mode='r') lines=file.readlines() dataSet=[] index=0 p=re.compile(r"\s+") for line in lines: line=p.split(line.strip()) dataSet.append(line) index+=1 return dataSet def calculateShannonEntropy(dataSet): ''''' 此方法功能是:计算样本集数据类别的信息熵,样本数据的格式为二维数组 参数: dataSet:样本集数据组成的二维数组 返回值: shannonEntropy:样本集数据类别的信息熵 ''' dataCount=len(dataSet) classCountDic={} for data in dataSet: label=data[-1] if label not in classCountDic.keys(): classCountDic[label]=0 classCountDic[label]+=1 shannonEntropy=0.0 for key in classCountDic: prob=float(classCountDic[key])/dataCount shannonEntropy-=prob*log(prob,2) return shannonEntropy def splitDataSet(dataSet,axis,value): ''''' 此方法功能是:对样本集数据按照某一特征进行分割,使得分割后的数据集中该特征的值全部等于同一个值,并且将分割后的数据中该特征列去除 参数: dataSet:待分割的样本集数据,二维数组 axis:特征所在样本集数据列中的位置 value:样本集数据分割后该特征的值 返回值: splitedDataSet:按照所在位置为axis的特征进行分割,并且该特征值为value的样本集数据的子集 ''' splitedDataSet=[] for data in dataSet: if data[axis]==value: splitedData=data[:axis] splitedData.extend(data[axis+1:]) splitedDataSet.append(splitedData) return splitedDataSet def chooseBestFeatureToSlipt(dataSet): ''''' 此方法功能是:分别计算整个样本集数据的信息熵与按照各个特征分割后的数据集的信息熵之差,得到使差值最大的分割方案,得到该分割方案的特征 参数: dataSet:待分割的样本集数据,二维数组 返回值: bestFeature:按照分割前后信息熵差值最大的分割方案得到的特征,返回此特征所在样本集数据列中的位置 ''' bestFeature=-1 dataSetShannonEntropy=calculateShannonEntropy(dataSet) infoGain=0 featureCount=len(dataSet[0])-1 for i in range(featureCount): featureList=[example[i] for example in dataSet] featureSet=set(featureList) splitedDataSetShannonEntropy=0 for feature in featureSet: splitedDataSet=splitDataSet(dataSet,i,feature) splitedDataSetShannonEntropy+=float(len(splitedDataSet))/len(dataSet)*calculateShannonEntropy(splitedDataSet) if dataSetShannonEntropy-splitedDataSetShannonEntropy>infoGain: infoGain=dataSetShannonEntropy-splitedDataSetShannonEntropy bestFeature=i return bestFeature def majorityClass(classList): ''''' 此方法功能是:从类别列表中得到个数最多的类别 参数: classList:类别列表,一维数组 返回值: 类别列表中个数最多的类别 ''' classCountDic={} for label in classList: if label not in classCountDic.keys(): classCountDic[label]=0 classCountDic[label]+=1 classCountDic=sorted(classCountDic.item(),key=operator.itemgetter(1),reverse=True) return classCountDic[0][0] def createTree(dataSet,features): ''''' 此方法功能是:根据训练样本集数据创建对分类最有效的决策树 参数: dataSet:训练样本集数据,二维数组 features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组 返回值: tree:根据训练样本集数据所创建的,对分类最有效的决策树 ''' subFeatures=features[:] classList=[example[-1] for example in dataSet] if classList.count(classList[0])==len(classList): return classList[0] if len(dataSet[0])==1: return majorityClass(classList) bestFeature=chooseBestFeatureToSlipt(dataSet) label=subFeatures[bestFeature] tree={label:{}} del(subFeatures[bestFeature]) featureList=[example[bestFeature] for example in dataSet] featureSet=set(featureList) for feature in featureSet: splitedDataSet=splitDataSet(dataSet,bestFeature,feature) tree[label][feature]=createTree(splitedDataSet, subFeatures) return tree def classify(inX,tree,features): ''''' 此方法功能是:根据创建好的决策树,对特定的数据进行分类 参数: inX:待分类的数据,特征值向量,一维数组 tree:根据决策树算法创建好的最有效的决策树 features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组 返回值: label:待分类的数据通过决策树分类之后的类别 ''' feature=list(tree.keys())[0] featureIndex=features.index(feature) secondTree=tree[feature][inX[featureIndex]] if type(secondTree).__name__=="dict": label=classify(inX,secondTree,features) else: label=secondTree return label
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。
- WCF 添加 RESTful 支持,适用于 IIS、Winform、cmd 宿主
- 在CentOS 7上安装Nginx服务器
- 卷积神经网络 | 深度学习笔记1
- 【直播】我的基因组65:看看哪些基因的突变较多,哪些较少
- angular之interceptors拦截器
- js list数据 转 树状 层级 JSON,递归生成树状 层级 JSON
- jquery 图片文件转base64 显示
- AngularJS 用 $http.jsonp 跨域SyntaxError问题
- 简单的java socket 示例
- Hadoop二次开发环境构建
- Android EditText 获得输入焦点 以及requestfocus()失效的问题
- 【直播】我的基因组68:看看哪些基因的突变较多,哪些较少
- GDI+编程
- GDI编程
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 厉害了!华为将发布国产编程语言,打破国外垄断!
- Flutter基础widgets教程-TabBarView篇
- 求求你不要在用!=null判空了
- Geant4--root和csv文件存储
- 爬虫模拟登录破解无原图滑动验证码
- Flutter基础widgets教程-TabBarView篇
- python + selenium 爬虫模拟登录破解无原图滑动验证码
- python 轻量级定时框架apscheduler,周中定时给自己发送邮件。
- python 舆情分析 nlp主题分析 (1) 待续
- Flutter基础widgets教程-Text篇
- python 舆情分析 nlp主题分析 (2)-结合snownlp与jieba库,提高分词与情感判断 待续
- No qualifying bean of type 'com.pjh.service.Imp.serviceImp' available和Exception in thread "main" jav
- python音频文件中pcm格式提取
- Spring系列之事务的控制 注解实现+xml实现+事务的隔离等级
- Leetcode刷题 237. 删除链表中的节点 两行代码实现