视讯！K近邻KNN模型

时间 : 2023-06-29 14:10:05 来源 : 哔哩哔哩

SPSSAU-在线SPSS分析软件

(资料图片)

K近邻算法 KNN k-nearest neighbor SPSSAU

K近邻KNN模型

K近邻KNN（k-nearestneighbor）是一种简单易懂的机器学习算法，其原理是找出挨着自己最近的K个邻居，并且根据邻居的类别来确定自己的类别情况。比如K为5个，即找出挨着自己最近的5个邻居，5个邻居中有4个是‘富人’，那么自己也会被标签为‘富人’。此处涉及几个点，一是距离如何计算，二是K值如何选择，三是如何归类。接下来案例部分将具体进行说明。

除此之外，K近邻KNN模型与Kmeans有些类似，二者目的都是分类，但Kmeans是事先不知道数据如何分类，KNN事先已经知道如何分类，二者有时候可以匹配着使用，比如先使用kmeans得到聚类类别，然后使用KNN模型分析聚类效果情况等。

K近邻KNN模型案例

1背景2

2理论2

3操作3

4SPSSAU输出结果4

5文字分析4

6剖析6

1背景

K近邻模型依旧经典的‘鸢尾花分类数据集’进行案例演示，其数据集为150个样本，包括4个特征属性（4个自变量X），标签为鸢尾花卉类别，其分为3个类别分别是刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花（下称A、B、C三类）。

2理论

K近邻KNN模型的原理上示意如下图：

比如红色点，挨着其最近的5个点（K=5时）如上图，如果该5个点中多数均为A类，那么红色点就归为A类。需要注意的是，通常情况下K值为奇数，因为如果为偶数比如为6，那么3个为A类3个为B类，此时不好划分点的类别。

上述中关于挨的最近的距离，如何进行衡量呢？距离的计算方式非常多，比如欧式距离、曼哈顿距离等，通常情况下使用欧式距离，其计算公式如下：

比如有两行数据分别3列（即3个X，3个特征项），两行数据分别是（1，2，3）和（3，4，5），那么=。

另外关于K值的选择上，通常建议K介于3~20之间，且一般为奇数值，SPSSAU默认为5，如果说K值太大，容易出现‘过拟合’现象即结果看着很好但事实上不好；如果K值过小，容易出现拟合现象很糟糕（欠拟合）现象。实际使用时，可考虑分别设置不同的K值，然后对模型的优劣进行汇总和对比。

关于归类问题，上述比如K=5，挨的最近5个点中有3个（超过一半）为A类，那么该点就分为A类，此种分类方式为‘等比投票权’，即5个点的权重完全一致。但我们知道，挨的最近的5个点，其实都能计算出距离值，是否可根据距离值大小来加权判断呢？比如使用距离值的倒数，即1/距离值作为权重，如果距离值越大，权重就越小，并且综合计算来评估类别划分，此种方式叫‘距离反比投票权法’。关于类别划分参数，其叫‘样本投票权重’。

关于K近邻KNN模型时，通常涉及到以下参数值，如下：

邻近样本个数K值，一般为奇数，并且常介于3~20之间，可设置不同的K值来对比不同模型的优劣。样本投票权重，默认是‘等比投票权’，可选为‘距离反比投票权’，建议K值较小时可考虑使用‘距离反比投票权’法。距离计算方法上，默认是欧式距离，可选曼哈顿距离，通常使用欧式距离即可。邻近搜索方法上，一种是全局搜索，比如100个样本，某个点分别先计算出该点离另外100个样本的距离，然后找出其中最小的K个，此种方式简单易懂，但是计算费资源，因而延伸出KD树和ball树两种优化算法。默认情况下系统会自动结合数据情况选择邻近搜索方法，研究者也可自行选择。

3操作

本例子操作如下：

训练集比例默认选择为:即80%（150*=120个样本）进行训练K近邻KNN模型，余下20%即30个样本(测试数据)用于模型的验证。需要注意的是，多数情况下，会首先对数据进行标准化处理，处理方式一般使用为正态标准化，此处理目的是让数据保持一致性量纲。当然也可使用其它的量纲方式，比如区间化，归一化等。

接着对参数设置如下：

邻近样本个数K值默认为5，样本投票权重方式为‘等比投票权’，邻近搜索方法自动让系统选择，距离计算方式为‘欧氏距离’法。

4SPSSAU输出结果

SPSSAU共输出5项结果，依次为基本信息汇总，训练集或测试集模型评估结果，测试集结果混淆矩阵，模型汇总表和模型代码，如下说明：

上述表格中，基本信息汇总表格展示因变量Y的分类数据分布情况，接着展示训练集和测试集效果情况，并且单独提供测试集数据混淆判断矩阵，进一步分析测试数据的正确效果等，模型汇总表格展示整体模型参数情况，并且提供sklean进行KNN模型构建的核心代码。

5文字分析

上表格中分别针对训练集和测试集，提供四个评估指标，分别是精确率、召回率、f1-scrore、准确率，以及平均指标和样本量指标等，如下表格说明：

一般来说，f1-score指标值最适合，因为其综合精确率和召回率两个指标，并且可查看其平均值（综合）指标，本案例为，并且测试数据的表现上为，意味着评估效果好，当前的KNN模型（基于K值为5时）表现良好。当然也可以更新K值个数，比如设置为7，重新运行结果并且对比选择最优模型。事实上当前设置K=7时，训练集的f1-scroe由上升到有点提升，但这并不重要，因为当K值更大时，理论上模型就会变的更好，反倒训练集时太好了反倒有‘过拟合’现象，因而应该更多关注于测试集数据，测试集数据的f1-score值为，说明测试集表现基本一致（测试集数据的拟合表现非常关键）。

进一步地，可查看测试数据的‘混淆矩阵’，即模型预测和事实情况的交叉集合，如下图：

‘混淆矩阵’时，右下三角对角线的值越大越好，其表示预测值和真实值完全一致。上图中B类时有2个测试数据被预测为C类，错误率较低。

最后针对模型汇总表，其展示构建K近邻KNN的各项参数设置，包括针对数据进行标准化正态处理，参数值为norm，训练集占比和K值设置等。最后，SPSSAU输出使用python中slearn包构建本次K近邻KNN模型的核心代码如下：

model= KNeighborsClassifier(n_neighbors=5, weights=uniform,algorithm=auto, p=2)

(x_train,y_train)

6剖析

涉及以下几个关键点，分别如下：

K近邻KNN模型时是否需要标准化处理?

一般建议是进行标准化处理，通常使用正态标准化处理方式即可，当然也可使用比如归一化处理等，其目的是处理特征的单位量纲问题，试想身高为与体重为50公斤，这单位不同计算距离时会有严重影响。

训练集比例应该选择多少?

如果数据量很大，比如1万，那么训练集比例可以较高比如，如果数据量较小，此时训练集比例选择较小预留出较多数据进行测试即可。

保存预测值

保存预测值时，SPSSAU会新生成一个标题用于存储模型预测的类别信息，其数字的意义与模型中标签项(因变量Y)的数字保持一致意义。

SPSSAU进行K近邻KNN模型构建时，自变量X（特征项）中包括定类数据如何处理?

K近邻KNN模型时，如果有定类数据，建议对其哑变量处理后放入，关于哑变量可点击查看。

/front/spssau/helps/otherdocuments/

SPSSAU进行KNN时提示数据质量异常？

当前KNN支持分类任务，需要确保标签项（因变量Y）为定类数据，如果为定量连续数据，也或者样本量较少（或者非会员仅分析前100个样本）时可能出现无法计算因而提示数据质量异常。

标签：

视讯！K近邻KNN模型

Contents

1背景

2理论

3操作

4SPSSAU输出结果

5文字分析

相关阅读

推荐文章

热门文章