k近邻算法的原理(几分钟了解一下K近邻算法(KNN)原理及实践)
K近邻算法,其英文全称:K-Nearest Neighbor Classification,一般简称为KNN。该算法是一种经典的分类算法,在包括气象、化妆品、4s店套餐用户分类等等领域有非常成熟的应用。接下来我们花几分钟来快速了解一下该算法的原理及实践应用。
首先,其基本原理:
在K近邻分类算法中,对于预测的新样本数据(未有分类标签),将其与训练样本一一进行比较,找到最为相似的K个训练样本,并以这K个训练样本中出现最多的分类标签作为最终新样本数据的预测标签。
其思想与“近朱者赤,近墨者黑”有异曲同工之妙!
其次,对原理进行提炼:
一、K值的定义(通俗理解即选择多少个和自己比较相似的小伙伴)
二、距离(相似度)定义(衡量自己与小伙伴是否相似的度量标准/公式)
三、邻居类别的统计(采用少数服从多数的原则,给未分类标签数据进行赋值)
接着,以实际案例出发,进行计算:
如上图所示,我们有学生1,2,3,4,5(新学生)的相关属性数据(体重、身高),其中学生1,2,3,4在具备相关属性基础上,还有目标属性标签(是否健康)。
我们的问题是通过对学生1,2,3,4的相关属性、目标属性数据进行学习,然后对学生5(即新学生)是否健康做出预测??
那么结合该问题,我们应用KNN算法对其进行求解,那在实际计算之前给出KNN算法的计算流程步骤:
(1)、未分类标签数据与已知数据一一计算距离;
(2)、在(1)基础上,找到最为相近的k个邻居;
(3)、k个邻居的类别统计,将最多类别的标签赋值给未分类标签数据。
接下来,我们仍旧以上述学生1,2,3,4,5(新学生)为例,假设自定义k值为3,距离采用欧式距离计算,用x代表体重,y代表身高。
那么结合算计步骤:
以上即为KNN算法实例计算全部过程,由于算法的K值可自定义,所以k可以取2,3,4,5,6,7......。其计算过程仍旧可以参考上述计算过程。
那到此为止,KNN算法的数据流计算过程就结束了,Put这么多,你Get到了么???
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 lqy2005888@qq.com 举报,一经查实,本站将立刻删除。