AdaBoost算法(R语言)
时间:2022-05-07
本文章向大家介绍AdaBoost算法(R语言),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
Boost算法是根据Valiant提出的PAC学习模型衍生得到,是一种可以自适应的改变训练样本的分布,从而使得基分类器聚焦在特殊样本的迭代方法。从基本的Boost算法原理,发展了很多不同的提升算法,如AdaBoost,Gradient Boosting等,本文着重介绍AdaBoost算法。
AdaBoost算法
与Bagging算法(R语言)不同的是,AdaBoost给每一个训练样本赋予一个权值,并且可以在每次提升后,自动调整权值。在从原始数据集抽取自助样本集时,权值可以影响抽样分布。并且此算法对每个基分类器进行加权,而不是使用投票的方式得到最终结果。
算法流程
step1
N=原数据集大小;
k=提升轮数;
w={所有样本初始权值1/N};
step2
step3
for i=1 to k{
根据w生成大小为N的自助样本集D[i];
D[i]上训练一个基分类器C[i];
C[i]对所有原始样本进行分类;
增加错误分类样本权值,减小争取分
类样本权值,得到新的w;
}
根据权重聚合每轮得到的C[i],得到最终
组合分类器;
不同提升算法的差别主要在于:(1)每轮提升后如何修改样本权值;(2)如何聚合基分类器得到最终分类器。Gradient Boosting算法是通过在迭代时,使损失函数在梯度方向上下降,来保证最好的效果。
R语言实现
adabag包中的boosting()函数可以实现AdaBoost算法,此函数中选取的基分类器为分类树。选取线性分类器与性能评价(R语言)中的数据来进行AdaBoost算法的实例演示,并展示了基分类器个数与误差变化关系图。
- 导入包与数据,以7:3比例将数据分为训练集与测试集。
library(adabag)
library(ggplot2)
target.url <- 'https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data'
data <- read.csv(target.url,header = F)
#divide data into training and test sets
set.seed(1500)
index <- sample(nrow(data),0.7*nrow(data))
train <- data[index,]
test <- data[-index,]
- 用boosting()函数对训练集进行训练。首先定义基分类器个数为1,通过循环依次增加基分类器个数,直至达到20。基分类器个数通过boosting()中的mfinal参数进行设置。
#AdaBoost algorithm with different numbers of classifiers
error <- as.numeric()
for(i in 1:20){
data.adaboost <- boosting(V61~., data=train, mfinal=i)
data.pred <- predict.boosting(data.adaboost,newdata = test)
error[i] <- data.pred$error
}
- 对于预测后的结果data.pred,输入data.pred$confusion可以看到预测值与真实结果的混淆矩阵,输入data.pred$error可以看到预测误差。下面,用ggplot2画出误差随基分类器个数变化图像。
error <- as.data.frame(error)
p <- ggplot(error,aes(x=1:20,y=error))+
geom_line(colour="red", linetype="dashed",size = 1)+
geom_point(size=3, shape=18)+
ylim(0.13,0.45) +
xlab("the number of basic classifiers")+
theme_bw()+
theme(panel.grid = element_blank())+
theme(axis.title = element_text(face = "bold"))
p
图像结果为:
可以看出,随着基分类器增加,误差虽有波动,但有减小趋势,逐渐趋向于0.22左右。
优缺点
1,AdaBoost充分考虑的每个分类器的权重。
2,Boosting通常用于弱学习,即没有分离白噪声的能力。
3,由于倾向于那些被错误分类的样本,Boost技术容易受过拟合影响。
4,训练比较耗时。
- CCKiller:Linux轻量级CC攻击防御工具,秒级检查、自动拉黑和释放
- 利用HSTS安全协议柔性解决全站HTTPS的兼容性问题
- Nginx内容替换模块http_substitutions_filter_module及实用案例分享
- libmemcached编译安装报错解决记录
- 解决网站静态缓存后WP-PostViews插件不计数的问题
- Haproxy安装部署文档及多配置文件管理方案
- ASM 翻译系列第三十四弹:ASM磁盘组重要属性介绍
- 博客集成Hitokoto·一言经典语句功能
- 博客网页导致电脑CPU飙升的问题解决记录
- 恢复WordPress分类目录的别名链接形式
- 替代crontab,统一定时任务管理系统cronsun简介
- 小网站最简单实用的动静分离优化方案
- Haproxy进阶管理:命令行控制后端节点上下线
- 网站集成打字震动特效JS代码改进版
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 解决mysql导入新数据库大小写问题(Table 'zup.Domain_System' doesn't exist)
- 蓝桥杯vip试题 报时助手
- 蓝桥杯-基础练习 查找整数
- 蓝桥杯-基础练习 数列排序
- 无线网络-何为ISM频段?
- 蓝桥杯vip测试题系统试题-算法提高 矩阵转置
- 蓝桥杯vip测试题系统-数组求和(解题思路以及解题代码,手画思路图虽然丑丑的)
- 蓝桥杯vip测试题-找零钱(解题思路以及解题代码)
- 剑指Office-二进制中1的个数
- 剑指Office-旋转数组的最小数
- Mysql调优你不知道这几点,就太可惜了
- Mysql快速导入数百万条数据,亲测有效
- [面试题06]从未到头打印链表(LeetCode-剑指Offer)
- SpringBoot集成RabbitMQ-三种模式的实现
- Centos7-Docker卸载旧的更新到新版本