机器学习(七)–K近邻


楼市新闻行业动态
叭楼新房带看,二手房代办过户,望京二手房精选房源,您置业的小管家。

给定一个数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K个实例,这K个实例多数属于某个类,就把该输入实例分到这个类。

算法:

T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\}

(1)根据给定的距离度量,在训练集T中找到与x最邻近的k个点,涵盖这k个点的x的邻域记作 N_{k}(x) ;

(2)在 N_{k}(x) 中根据分类决策规则(如多数表决)决定x的类别y:

y=argmax_{c_{j}}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}=c_{j})}

I 为指数函数。

模型:

K近邻使用的模型实际上是对应于特征空间的划分,模型的三要素:距离度量、k值的选择、分类决策规则。

1.距离度量

L_{p} 距离: L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|^{p}})^{\frac{1}{p}} p\geq1

p=2时,欧氏距离: L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|^{2}})^{\frac{1}{2}}

p=1时,曼哈顿距离: L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|}

p=∞时,各坐标距离的最大值: L_{\infty}(x_{i},x_{j})=max_{l}{|x_{i}^{(l)}-x_{j}^{(l)}|}

2.k值的选择

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

3.分类决策规则

k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

多数表决规则有如下解释:如果分类的损失函数为0-1损失函数,分类函数为

f:R^{n}\rightarrow \left\{ c_{1},c_{2},…,c_{k}\right\}

那么误分类的概率是

P(Y\ne f(x))=1-p(Y=f(x))

误分类率是:

\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}\ne c_{j})}=1-\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}=c_{j})}

要是误分类率最小!

声明:本站内容来源于网络或叭楼会员发布,叭楼只作为信息发布平台,版权归原作者所有,本站不承担任何图片、内容、观点等内容版权问题,如对内容有歧义,可第一时间联系本站管理员发送邮件8309272@qq.com或者扫码微信沟通,经核实后我们会第一时间删除。

给定一个数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K个实例,这K个实例多数属于某个类,就把该输入实例分到这个类。算法:T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\} (1)根据给定的距离度量,在训练集T中找到与…

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容