算法--随便写写 - 码农教程

结巴分词：jieba.cut()

决策树

集成学习

无监督学习

tf-idf文本特征提取

tf 词频

idf 逆向文档频率

tf-idf 思想：一篇文章中出现多次，其他文章很少出现

TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率

逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到

Tf-idf的重要性：分类机器学习算法进行文章分类中前期数据处理方式

决策树

机器学习基本步骤

数据获取

数据基本处理

　　缺失值处理

　　　　补空

　　　　确定特征值，目标值

　　　　切割数据

特征工程

　　特征提取

　　　　需要转数据字典，才能转换one hot 编码

建立模型

模型评估

决策树的可视化

保存树的结构到dot文件

sklearn.tree.export_graphviz() 该函数能够导出DOT格式
- tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])

export_graphviz(estimator, out_file="./data/tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])

集成学习

bagging 过拟合问题 N个模型投票同一个问题，互相遏制变壮

boosting 欠拟合，分段拟合

最终结果

只要单分类器的效果表现不太差，集成学习的结果总要优于单分类器的

所以说集成学习好

bagging

解决过拟合问题

集成原理：

　　采集不同子样本

　　n个子样本分别构建模型

　　n个模型对一个问题平权投票

随机森林构造过程

bagging + 决策树

随机森林是一个包含多个决策树的分类器

1.选取m个样本数据（m<<M）

2.随机选取k个特征（k<K）

随机森林api

bagging优点

在原算法的基础上提高2%泛化正确率

简单方便实用

boosting 集成学习

通过学习从弱到强的过程，分段拟合

1.Adaboost

2.GBDT

3.XGBoots

实现Adaboost

注意力放到错误的数据上

放大错误数据的权重
缩小预测正确数据的权重

1.雪莲一个模型

2.更具模型结果放大错误数据，缩小正确数据

3.在训练一个模型

4.然后是迭代很多次

5.加却投票

如何确认投票权重

如何调整数据分布

通过投票权重调整数据分布

预测正确缩小

预测错误放大

bossting和bagging 的区别

数据方面

bagging 有放回随机采样

boosting 根据前一轮结果调整数据重要性

投票方面

bagging 平权投票

boosting 加权投票

学习顺序

bogging 并行的独立训练互相没任何关系

bossting 串行学习有先后顺序

主要作用

bogging 过拟合问题

bossting 欠拟合问题

原文地址：https://www.cnblogs.com/mujun95/p/11882396.html