博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习从入门到放弃之朴素贝叶斯
阅读量:6613 次
发布时间:2019-06-24

本文共 1024 字,大约阅读时间需要 3 分钟。

简介

这次我们来谈谈机器学习中另外一个数学气息比较浓的算法朴素贝叶斯算法

可能有朋友会看见数学气息比较浓心理就咯噔一下,先别急着叉掉本文,说朴素贝叶斯算法算法的数学气息比较浓,并非它有什么巨发杂的数学公式,而是它常见于概率统计之中,在本科教育就有对其比较详细的描述,而之前体积的K邻近决策树,包括以后可能会谈到的SVM,神经网络网络等,恐怕不是专业领域,很难知道这些名词。

当然,可能你已经忘记了,那我们就先看看公式吧

$$P(B|A)=frac {P(A|B)P(B)} {P(A)}$$

怎么样,是否有一种熟悉感?

上面就是贝叶斯公式,接下来,开始说一下算法该如何设计。

算法设计

第一步我们需要对上述公式进行推广至N维特征

$$P(Y|X_1X_2.....X_N)=frac {P(X_1X_2.....X_N|Y)P(Y)}{P(X_1X_2.....X_N)}$$

上述公式可解析为,当对象满足[X1,X2……Xn]这些特征时,该对象属于Y类的概率是多少。

显然,只要我们算出每一个Y的值,概率最大的那个类别,就是我们想要的。

由于作为分母的P(X_1X_2.....X_N)在每个类别的计算都是相同的,而我们只需比较大小,并不需要每一个的准确值,公式自然可以简化成

$$f(x)=P(X_1X_2.....X_N|Y)P(Y)$$

为了进一步简化计算,我们假设每个特征都彼此独立(这也是该算法被称为朴素贝叶斯的原因),因此,公式将变成

$$f(x)=P(X_1|Y)P(X_2|Y).....P(X_n|Y)P(Y)$$

这一下就相当清晰明了。

P(X1|Y)P(X2|Y).....P(Xn|Y)与输入变量有关(分别表示在训练集中Y某值时,然后X1为某值时的概率),但P(Y)是恒定的,因此该算法就是在训练过程中,根据训练集,计算出每一个Y的概率值,再在运行期与特征进行运算。

最后只需进行简单的排序,即可获得预测结果。

代码实现

代码也是在我之前的github仓库中

如果你对机器学习的算法有足够的认识,你会发现朴素贝叶斯和前些时候提到的K邻近算法,算是比较容易自己实现的,因为其他算法即使忽略数学证明和推导,你也不可避免的理解每一个参数和函数的意义,这样你才能理解调参后悔对模型有什么影响,但是朴素贝叶斯K邻近算法,只是单纯的代数运算而已。

既然如此,对机器学习感兴趣的同学,为什么不自己实现一次呢?have fun~~~

转载地址:http://zuoso.baihongyu.com/

你可能感兴趣的文章
敏捷个人应用:开发环境搭建
查看>>
Android应用程序组件Content Provider的共享数据更新通知机制分析(3)
查看>>
敏友的【敏捷个人】有感(11): 敏捷个人线下活动有感
查看>>
【VMCloud云平台】SCCM(八)OSD(二)- 模板机捕获准备
查看>>
Docker容器固定IP分配
查看>>
刺激用户危机意识,实现快速盈利的营销思维
查看>>
虚拟化系列-Citrix XenServer 6.1 网络管理
查看>>
一个电脑做Wifi热点的软件——Connectify
查看>>
英特尔嵌入式突围
查看>>
WIN FORM 多线程更新UI(界面控件)
查看>>
一道打印M的面试题[java]
查看>>
【常见问题】系列01:双击文件夹打开新窗口
查看>>
Quartz 框架快速入门(三)
查看>>
关于程序内存的问题
查看>>
将字符串中从n位开始以*代替
查看>>
access 2007创建表关系
查看>>
JDBC公共动作类
查看>>
JUnit单元测试
查看>>
[logstash-input-file]插件使用详解
查看>>
HDU 3103 Shoring Up the Levees(计算几何 搜寻区域)
查看>>