机器学习(七)–K近邻-叭楼楼市分享网

机器学习(七)–K近邻

3年前发布

03715

楼市新闻、行业动态
 叭楼，新房带看，二手房代办过户，望京二手房精选房源，您置业的小管家。

给定一个数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的K个实例，这K个实例多数属于某个类，就把该输入实例分到这个类。

算法：

T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\}

（1）根据给定的距离度量，在训练集T中找到与x最邻近的k个点，涵盖这k个点的x的邻域记作 N_{k}(x) ;

(2)在 N_{k}(x) 中根据分类决策规则（如多数表决）决定x的类别y:

y=argmax_{c_{j}}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}=c_{j})}

I 为指数函数。

模型：

K近邻使用的模型实际上是对应于特征空间的划分，模型的三要素：距离度量、k值的选择、分类决策规则。

1.距离度量

L_{p} 距离： L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|^{p}})^{\frac{1}{p}} p\geq1

p=2时，欧氏距离： L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|^{2}})^{\frac{1}{2}}

p=1时，曼哈顿距离： L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|}

p=∞时，各坐标距离的最大值： L_{\infty}(x_{i},x_{j})=max_{l}{|x_{i}^{(l)}-x_{j}^{(l)}|}

2.k值的选择

在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。

3.分类决策规则

k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

多数表决规则有如下解释：如果分类的损失函数为0-1损失函数，分类函数为

f:R^{n}\rightarrow \left\{ c_{1},c_{2},…,c_{k}\right\}

那么误分类的概率是

P(Y\ne f(x))=1-p(Y=f(x))

误分类率是：

\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}\ne c_{j})}=1-\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}=c_{j})}

要是误分类率最小！

声明：本站内容来源于网络或叭楼会员发布，叭楼只作为信息发布平台，版权归原作者所有，本站不承担任何图片、内容、观点等内容版权问题，如对内容有歧义，可第一时间联系本站管理员发送邮件8309272@qq.com或者扫码微信沟通，经核实后我们会第一时间删除。
北京二手房、楼市分析
给定一个数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的K个实例，这K个实例多数属于某个类，就把该输入实例分到这个类。算法：T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\} （1）根据给定的距离度量，在训练集T中找到与…

© 版权声明

声明：本站内容来源于网络或叭楼会员发布，网站只作为信息发布平台，版权归原作者所有，本站不承担任何图片、内容、观点等内容版权问题，如对内容有歧义，可第一时间联系本站管理员，经核实后我们会第一时间删除。

THE END

楼市新闻行业动态
# 楼市新闻 # 北京 # 叭楼 # 二手房 # 新房 # 北京二手房 # 空间 # 望京 # 楼市分析

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容