机器学习(八)–朴素贝叶斯推导

楼市新闻行业动态 叭楼,新房带看,二手房代办过户,望京二手房精选房源,您置业的小管家。

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。

1.基本方法

输入为特征向量 x\in X ,输出为类标记 y\in Y ,

训练集 T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N}) \right\} ,

朴素贝叶斯通过训练数据集学习联合概率分布P(X,Y)。

先验概率分布: P(Y=C_{k}),k=1,2,…,k

条件概率分布:

P(X=x|Y=C_{k})=P(x^{(1)}=x^{(1)},x^{(2)}=x^{(2)},…,x^{(n)}=x^{(n)}Y=C_{k}),k=1,2,…,k

朴素贝叶斯对条件概率分布作了条件独立性的假设:

P(X=x|Y=C_{k})=P(x^{(1)}=x^{(1)},x^{(2)}=x^{(2)},…,x^{(n)}=x^{(n)}Y=C_{k})=\prod_{j=1}^{n}P(x^{(j)}=x^{(j)}|Y=C_{k})

朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。

条件独立假设等于是说用于分类的特征类确定的条件下都是条件独立的。这一假设使朴素贝叶斯变得简单,但有时会牺牲一定的准确性。

后验概率计算:

P(Y=C_{k}|X=x)=\frac{P(X=x|Y=C_{k})P(Y=C_{k})}{\sum_{k}^{}{P(X=x|Y=C_{k})P(Y=C_{k})}}=\frac{P(Y=C_{k})\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=C_{k})}{\sum_{k}^{}P(Y=C_{k})\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=C_{k})}

将后验概率最大的类作为x的类输出,所以,朴素贝叶斯分类器可表示为:

y=f(x)=argmax_{c_{k}}\frac{P(Y=C_{k})\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=C_{k})}{\sum_{k}^{}P(Y=C_{k})\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=C_{k})}

上式分母中 C_{k} 取任何值都相同,所以

y=argmax_{c_{k}}P(Y=C_{k})\prod_{j}^{}P(X^{j}=x^{j}|Y=C_{k})

2.后验概率最大化的含义

朴素贝叶斯将实例分到后验概率最大的类中,等价于期望风险最小化,假设选择0-1损失函数:

期望风险函数: R_{exp}(f(x))=E[L(Y,f(x))]

期望是对联合分布 P(X,Y) 取的,因此取条件期望:

R_{exp}(f(x))=E_{x}\sum_{k=1}^{k}[L(C_{k},f(x))]P(C_{k}|X)

为了使期望风险最小化,只需对X=x逐个最小化,

f(x)=argmin_{y\in Y}\sum_{k=1}^{K}L(C_{k},y)P(C_{k}|X=x)=argmin_{y\in Y}\sum_{k=1}^{K}P(y\ne C_{k}|X=x) =argmin_{y\in Y}(1-P(y=C_{k}|X=x))=argmin_{y\in Y}P(y=C_{k}|X=x)

补充:

先验概率:事情还没发生,求这件事情发生的可能性(根据以往的经验得到的)

后验概率:事情已经发生了,求这件事发生的原因是由某个因素引起的可能性大小(以先验为基础,根据贝叶斯公式计算得到的)

3.极大似然估计

朴素贝叶斯的学习意味着估计 P(Y=C_{k})P(X^{(j)}=x^{(j)}|Y=C_{k}) 可以用极大似然法估计相应的概率:

P(Y=C_{k}) 的极大似然估计是:

P(Y=C_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=C_{k})}{N},k=1,2,…,k

P(X^{(j)}=x^{(j)}|Y=C_{k}) 的极大似然估计是:

P(X^{(j)}=x^{(j)}|Y=C_{k})=\frac{\sum_{i=1}^{N}(x_{i}^{(j)}=a_{jl},y_{i}=C_{k})}{\sum_{i=1}^{N}I(y_{i}=C_{k})}

4.朴素贝叶斯算法

5.贝叶斯估计

极大似然估计可能会出现所要估计的概率值为零的情况,会影响到后验概率的计算结果,使分类产生偏差。

条件概率的贝叶斯估计:

P_{\lambda}(X^{j}=a_{jl}|Y=C_{k})=\frac{\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=C_{k}+\lambda)}{\sum_{i=1}^{N}I(y_{i}=C_{k})+s_{j}\lambda}

\lambda\geq0 ,当 \lambda=0 时,即为极大似然估计。

先验概率的贝叶斯估计:

P_{\lambda}(Y=C_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=C_{k})+\lambda}{N+K\lambda} ,K为类的个数。

声明:本站内容来源于网络或叭楼会员发布,叭楼只作为信息发布平台,版权归原作者所有,本站不承担任何图片、内容、观点等内容版权问题,如对内容有歧义,可第一时间联系本站管理员发送邮件8309272@qq.com或者扫码微信沟通,经核实后我们会第一时间删除。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。1.基本方法输入为特征向量 x\in X ,输…
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容