几分钟了解一下K近邻算法（KNN）原理及实践

云烟 • 2024年 9月 22日上午6:30 • 未分类

K近邻算法，其英文全称：K-Nearest Neighbor Classification，一般简称为KNN。该算法是一种经典的分类算法，在包括气象、化妆品、4s店套餐用户分类等等领域有非常成熟的应用。接下来我们花几分钟来快速了解一下该算法的原理及实践应用。

首先，其基本原理：

在K近邻分类算法中，对于预测的新样本数据（未有分类标签），将其与训练样本一一进行比较，找到最为相似的K个训练样本，并以这K个训练样本中出现最多的分类标签作为最终新样本数据的预测标签。

其思想与“近朱者赤，近墨者黑”有异曲同工之妙！

其次，对原理进行提炼：

一、K值的定义（通俗理解即选择多少个和自己比较相似的小伙伴）

二、距离（相似度）定义（衡量自己与小伙伴是否相似的度量标准/公式）

三、邻居类别的统计（采用少数服从多数的原则，给未分类标签数据进行赋值）

接着，以实际案例出发，进行计算：

如上图所示，我们有学生1,2,3,4,5（新学生）的相关属性数据（体重、身高），其中学生1,2,3,4在具备相关属性基础上，还有目标属性标签（是否健康）。

我们的问题是通过对学生1,2,3,4的相关属性、目标属性数据进行学习，然后对学生5（即新学生）是否健康做出预测？？

那么结合该问题，我们应用KNN算法对其进行求解，那在实际计算之前给出KNN算法的计算流程步骤：

（1）、未分类标签数据与已知数据一一计算距离；

（2）、在（1）基础上，找到最为相近的k个邻居；

（3）、k个邻居的类别统计，将最多类别的标签赋值给未分类标签数据。

接下来，我们仍旧以上述学生1,2,3,4,5（新学生）为例，假设自定义k值为3，距离采用欧式距离计算，用x代表体重，y代表身高。

那么结合算计步骤：

以上即为KNN算法实例计算全部过程，由于算法的K值可自定义，所以k可以取2,3,4,5,6,7……。其计算过程仍旧可以参考上述计算过程。

那到此为止，KNN算法的数据流计算过程就结束了，Put这么多，你Get到了么？？？

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/74097.html