楼市新闻、行业动态
叭楼,新房带看,二手房代办过户,望京二手房精选房源,您置业的小管家。
给定一个数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K个实例,这K个实例多数属于某个类,就把该输入实例分到这个类。
算法:
T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\}
(1)根据给定的距离度量,在训练集T中找到与x最邻近的k个点,涵盖这k个点的x的邻域记作 N_{k}(x) ;
(2)在 N_{k}(x) 中根据分类决策规则(如多数表决)决定x的类别y:
y=argmax_{c_{j}}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}=c_{j})}
I 为指数函数。
模型:
K近邻使用的模型实际上是对应于特征空间的划分,模型的三要素:距离度量、k值的选择、分类决策规则。
1.距离度量
L_{p} 距离: L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|^{p}})^{\frac{1}{p}} p\geq1
p=2时,欧氏距离: L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|^{2}})^{\frac{1}{2}}
p=1时,曼哈顿距离: L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}{|x_{i}^{(l)}-x_{j}^{(l)}|}
p=∞时,各坐标距离的最大值: L_{\infty}(x_{i},x_{j})=max_{l}{|x_{i}^{(l)}-x_{j}^{(l)}|}
2.k值的选择
在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。
3.分类决策规则
k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。
多数表决规则有如下解释:如果分类的损失函数为0-1损失函数,分类函数为
f:R^{n}\rightarrow \left\{ c_{1},c_{2},…,c_{k}\right\}
那么误分类的概率是
P(Y\ne f(x))=1-p(Y=f(x))
误分类率是:
\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}\ne c_{j})}=1-\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}{I(y_{i}=c_{j})}
要是误分类率最小!
声明:本站内容来源于网络或叭楼会员发布,叭楼只作为信息发布平台,版权归原作者所有,本站不承担任何图片、内容、观点等内容版权问题,如对内容有歧义,可第一时间联系本站管理员发送邮件8309272@qq.com或者扫码微信沟通,经核实后我们会第一时间删除。
北京二手房、楼市分析
给定一个数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K个实例,这K个实例多数属于某个类,就把该输入实例分到这个类。算法:T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\} (1)根据给定的距离度量,在训练集T中找到与…




















暂无评论内容