【温故】金融数据挖掘之朴素贝叶斯
你和我之前的人生,
就像是来自同一个分布族的共轭曲线,
即使有各自的参数空间,
也注定要相识相念。
你和我之后的人生,
是我们相扶相持下不离不弃的最大似然,
用“信任与珍惜”的先验去修正所有后验,
用“包容和分享”的样本去做无悔一生的推断。
这是朴素的贝叶斯思想,
也是我们朴素的爱情宣言。
一、贝叶斯的故事
“托马斯.贝叶斯……这个生性孤僻,哲学气味重于数学气味的学术怪杰,以其一篇遗作的思想重大地影响了两个世纪以后的统计学术界,顶住了统计学的半边天”。
——中国科学院院士陈希孺
- 托马斯·贝叶斯(ReverendThomas Bayes, 1702-1761)是对归纳推理给出精确定量表达方式的第一人,他死后发表的论文,可以作为科学史上最著名的论文之一(Press,1989:P181)。
- 40岁当选英国皇家学会会员,相当于今天的英国科学院院士。
- 即使这样,他在18世纪上半叶欧洲学术界也不算一个起眼的人物。在他生前,没有片纸只字的科学论著发表。那时,传播和交流科学成果的一种方式,是学者间的私人通信。这些信件许多都得以保存下来并发表传世。
- 他最伟大的论文《机遇理论中一个问题的解》,在他死后第三年才发表,1764年被发表在伦敦皇家学会的《Philosophical Transactions》上。
- 贝叶斯开创了统计学的贝叶斯学派,用先验知识和逻辑推理来处理不确定命题,与古老的频率学派分庭抗礼,频率学派只从数据中获得信息,完全不考虑先验知识,即人的经验。
二、贝叶斯定理
如果想判断未知样本的类别,比如,现在我们有三个自变量X1、X2、X3,通过这三个变量来判断它是属于第一类(C=1)还是第二类(C=2),我们可以用KNN、也可以用决策树算法来分析,本文介绍贝叶斯的思路:
- P ( C=c | X1=x1, X2=x2, X3=x3 ) ,代表当一个样本X1、X2、X3三个变量值分别为x1、x2、x3时,该样本类别为c的概率。
- P(C=1|X1,X2,X3) > P(C=2|X1,X2,X3),说明给定数据的X1、X2、X3后,数据属于类别1的概率要大于属于类别2,即说明现有样本支持未知样本属于类别1,判定为类别1。
- P(C=1|X1,X2,X3)<P(C=2|X1,X2,X3),则说明现有样本支持未知样本属于类别2,判定为类别2。
OK,那么如何得到
P(C=1|X1,X2,X3)
P(C=2|X1,X2,X3)
这两个概率呢?
答案是——得不到。但是没关系,因为,只要知道这两个谁大谁小就可以进行判断,即:
- P(C=1|X1,X2,X3) > P(C=2|X1,X2,X3),则判定类别为1;
- P(C=1|X1,X2,X3) < P(C=2|X1,X2,X3),则判定类别为2;
贝叶斯定理就提供了方法进行这种比较。
(以上就是贝叶斯的思想,以下内容涉及到定理、公式、推导,如不感兴趣可以直接跳到「三、金融应用实例部分」)
- 贝叶斯定理
贝叶斯定理用如下公式表示:
P(C|X)是给定属性X下,C的后验概率,P(C)是C的先验概率,该公式被称为“贝叶斯定理”。根据贝叶斯定理,我们想找出最大的P(C|X),只要找出最大的P(X|C)P(C)即可,因为P(X)对所有类为常数,这便是朴素贝叶斯分类的基础。
- 朴素贝叶斯分类
利用贝叶斯定理,找出最大的P(X|C)P(C)即可对未知样本进行分类,如
max{P(X|C)P(C)}=P(X|C=n)P(C=n),
则说明未知样本属于第n类,其中,
(1)P(C=i) = Si/S,Si 是类Ci 中的训练样本数,S 是训练样本总数;
(2)P(X|C=i) 的计算开销可能非常大,因为会涉及到很多属性变量,这里可以做“属性值互相条件独立”的假定,即属性间不存在依赖关系:
即,如果用三个属性值X1、X2、X3,来推测类别C,那么有:
P(X1,X2,X3|C=i)= P(X1|C=i)*P(X1|C=i)*P(X1|C=i)
这一假定是为了简化所需计算,也因此该算法被冠以“朴素的”定语。
(3)要注意的是,在计算P(Xk|C=i)时,要看Xk是分类属性还是连续属性:
- 如果Xk是分类属性,则
,
比如
即在类别C=1的样本中,X1占的比例;
- 如果Xk是连续属性,则通常做正态分布假定:
,
是属性Xk的密度函数,
为平均值和标准差。
朴素贝叶斯分类模型,与前面介绍的决策树一样被用于分类。它发源于贝叶斯定理,有着坚实的数学基础和稳定的分类效率。
但受制于一些假定的不准确性(如类条件独立),以及缺乏可用的概率数据,该算法的准确率可能没有理论表现的那么美好。
然而,它的计算量KNN要小很多,其简单的算法又可以与决策树和神经网络相媲美,是使用最广泛的分类模型之一。
三、金融应用实例
- 选股
复旦大学的钱颖能、胡运发老师用朴素贝叶斯分类法进行选股:
(1)利用上交所中所有股票的基本会计和价格信息,用朴素贝叶斯法来辨别那些超过市场指数而可望获得额外汇报的股票。
(2)由朴素贝叶斯法选择的股票所组成的同等权重证券组合,1年半内总共获得21%的回报,明显优于市场指数的-9%的回报。
- 反洗钱
西安交通大学的张成虎、赵小虎(2009)利用朴素贝叶斯分类来识别可疑金融交易,发现洗钱行为。在他们的论文“基于贝叶斯分类的可疑金融交易识别研究”中提到,从反洗钱检测实践来看,可疑金融交易行为主要有以下几类特征:
(1)交易金额、交易频率的异常。
如短期内发生资金收付行为,长期闲置的账户不明原因突然启用等。
(2)交易流向、交易来源的异常。
如与来自贩毒、走私、恐怖活动、赌博严重的地区或者避税型离岸中心客户之间的资金往来活动在短期内增多;多个境内居民接受一个离岸账户汇款等。
(3)交易用途或交易性质异常。
如没有正常原因的多头开户、销户,且销户前发生大量资金收付;保险机构通过银行频繁大量对同一家投保人发生赔付或者办理退保等。
论文中他们先用聚类分析、小波分析、链接分析来分别对以上几种可疑行为进行识别,并对识别有问题的交易行为标注为1,在利用贝叶斯来对整个交易行为进行判定。
四、软件实现
本文主要介绍Python和MATLAB的实现思想,仅以分类变量为例:
- PYTHON
如果现在有已知数据data:
分类向量c_value=[“yes”,”no”]两类,未知数据test:
test={"outlook":"sunny","temp":"cool","humidity":"high","wind":"strong"}
那么如何在python中实现对未知样本test的朴素贝叶斯分类呢?主要需要三段代码:
- MATLAB
Matlab最好先把分类变量值以字符串形式转变为数字形式,在上个例子中,
(1)outlook有三个分类:sunny、overcast、rain,分别赋值为1、2、3;
(2)temp有三个分类:hot、mild、cool,分别赋值为1、2、3;
(3)humidity有两个分类:high、normal,分别赋值为1、2;
(4)wind有两个分类:strong、weak,分别赋值为1、2;
(5)class有两个分类:yes、no,分别赋值为1、2;
data = [
1 1 1 2 2;
1 1 1 1 2;
2 1 1 2 1;
3 2 1 2 1;
3 3 2 2 1;
3 3 2 1 2;
2 3 2 1 1;
1 2 1 2 2;
1 3 2 2 1;
3 2 2 2 1;
1 2 2 1 1;
2 2 1 1 1;
2 1 2 2 1;
3 2 1 1 2;
]
我们把Python实现思想转化成MATLAB形式:
function p =p(data,c_id,c_value)
count=0.0;
for i=1:size(data,1)
if data(i,c_id)==c_value
count=count+1;
end
end
p=count/size(data,1)
end
function pp=pp(data,c_id,c_value,a_id,a_value)
count1=0.0;
count2=0.0;
for l=1:size(data,1)
if data(l,c_id)==c_value
count1=count1+1;
if data(l,a_id)==a_value
count2=count2+1;
end
end
end
pp=count2/count1;
end
function nb(data,test,c_id,c_value)
pv=0*c_value
for i=1:size(c_value,2)
pv(1,i)=p(data,c_id,c_value(1,i));
end
for i=1:size(c_value,2)
for j=1:size(test,2)
pv(1,i)=pv(1,i)*pp(data,c_id,c_value(1,i),j,test(1,j));
end
end
pv
end
- END -
- PHP页面跳转代码
- 分布式事务 TCC-Transaction 源码解析 —— 调试环境搭建
- 机器学习入门——使用python进行监督学习
- 推荐算法的介绍,第一部分——协同过滤与奇异值分解
- 在ASP中实现UNIX时间戳
- 【学术】厉害了我的哥,国外技术大咖仿造了谷歌的Arts &Culture,找到古代的“你”
- 【技巧】应赛技巧,教你如何在Kaggle比赛中排在前1%
- 熔断器 Hystrix 源码解析 —— 命令执行(一)之正常执行逻辑
- 智能主题检测与无监督机器学习:识别颜色教程
- 如何下载安装Weka机器学习工作平台
- Dubbo 源码解析 —— LoadBalance
- 如何处理机器学习中类的不平衡问题
- 【死磕Java并发】—– Java内存模型之重排序
- Mask R-CNN源代码终于来了,还有它背后的物体检测平台
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 其他流---基本数据处理流
- 其他流---字节数组流与文件流对接
- 其他流---字节流数组
- 字符流出现乱码问题
- 缓冲流---为字节流和字符流复制文件增加缓冲流
- 字符流---输入输出与复制文本文件
- Spring 中的几个 PostProcessor 的区别与联系
- Spring 中基于注解的事务控制及原理分析
- Spring 中根据环境切换配置 @Profile
- Spring 中的属性赋值
- Spring 中控制 Bean 生命周期的几种方式及 BeanPostProcessor 执行原理
- Spring 中的 @Import 注解及向容器中添加 Bean 的几种方式
- Spring 注解开发之 @Conditional
- JDBC 技术应用实践:网上书城后台管理系统
- 思科模拟器:路由器基本配置