博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【机器学习】分类算法其实也可做回归分析——以knn为例
阅读量:2019 次
发布时间:2019-04-28

本文共 3981 字,大约阅读时间需要 13 分钟。

摘要: 本文以knn算法为例简要介绍如何使用分类算法来完成回归任务。

关键字: knn算法,回归任务。

前言

之前的文章(、)已经介绍了knn算法的思想以及如何使用sklearn去实现这个算法了,其实大多的分类算法也是可以做回归的,特别是当训练数据比较多的时候效果就更加明显。下面让我们看看如何使用分类算法来做回归分析。

1 构建回归分析的数据

为了仿真回归分析,我们也不得不自己构造能够满足回归分析的数据了。其构造如下:

import numpy as npdef makeRegressionData(n_samples=100):    rnd = np.random.RandomState(42)  # 设置伪随机状态    x = rnd.uniform(-3, 3, size=n_samples)    # 随机生成范围在[-3,3) n_samples个点的随机数    y_no_noise = (np.sin(4 * x) + x)          # 目标函数    y = (y_no_noise + rnd.normal(size=len(x))) / 2  # 加入满足标注正太分布的随机噪声    return x.reshape(-1, 1), y

数据可视化:

import matplotlib.pyplot as pltX, y = makeRegressionData(n_samples=40)plt.plot(X, y, 'o')plt.ylim(-3, 3)plt.xlabel('Feature')plt.ylabel('Target')

2 n邻居预测结果

原理展示图代码:

from sklearn.metrics import euclidean_distancesfrom sklearn.neighbors import KNeighborsRegressordef plot_knn_regression(X, y, X_test, n_neighbors=1):    dist = euclidean_distances(X, X_test)   # 计算欧式距离    closest = np.argsort(dist, axis=0)      # 对距离进行排序    plt.figure(figsize=(10, 6))    # knn回归    reg = KNeighborsRegressor(n_neighbors=n_neighbors).fit(X, y)    # 预测值    y_pred = reg.predict(X_test)            # 找出预测值    # 测试点与最近的n个点之间的连线    for x, y_, neighbors in zip(X_test, y_pred, closest.T):        for neighbor in neighbors[:n_neighbors]:            plt.arrow(x[0], y_, X[neighbor, 0] - x[0], y[neighbor] - y_, head_width=0, fc='k', ec='k')    # 各种数据绘制    train, = plt.plot(X, y, 'o', c='#0000aa')    test, = plt.plot(X_test, -3 * np.ones(len(X_test)), '*', c='#50ff50', markersize=20)    pred, = plt.plot(X_test, y_pred, '*', c='#0000aa', markersize=20)    # x, ymin, ymax    plt.vlines(X_test, -3.1, 3.1, linestyle="--")    # 显示图例    plt.legend([train, test, pred],               ["training data/target", "test data", "test prediction"],               ncol=3, loc=(.1, 1.025))    # 坐标轴设置    plt.ylim(-3.1, 3.1)    plt.xlabel("Feature")    plt.ylabel("Target")    X_test = np.array([[-1.5], [0.9], [1.5]])   # 测试数据plot_knn_regression(X,y,X_test)  # k=1plot_knn_regression(X,y,X_test, n_neighbors=3)  # k=3

结果图:

注: 特征只有一个,测试数据点与数据集之间的具体体现在x轴之间的距离

从上图就可以很容易理解,k近邻算法回归分析的思路了,找到最近的几个点,计算均值即可。

3 模型使用

有了之前的基础,构建一个模型就简单多了,如下:

from sklearn.model_selection import train_test_split# 划分数据集X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=40)# 构建模型并训练reg = KNeighborsRegressor(n_neighbors=3)reg.fit(X_train, y_train)"""KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',                    metric_params=None, n_jobs=None, n_neighbors=3, p=2,                    weights='uniform')"""# 模型预测print("Test set predictions:\n{}".format(reg.predict(X_test)))"""Test set predictions:[ 0.82597372 -0.5856804   0.0836095  -1.02040464  0.41271285 -0.23052151 -1.62784743 -1.62784743  0.82597372 -0.23052151]"""print("Test set R^2:{:.2f}".format(reg.score(X_test, y_test)))"""Test set R^2:0.71"""

需要说明的是:在sklearn中使用score来苹果模型,在回归问题上,返回的是 R 2 R^2 R2分数,也叫做决定系数,是回归模型预测的优度度量,位于0与1之间。 R 2 R^2 R2等于1对应完美预测。

4 KNeighborsRegressor分析

fig, axes = plt.subplots(1, 3, figsize=(15, 4))line = np.linspace(-3, 3, 1000).reshape(-1, 1)for n_neighbors, ax in zip([1, 3, 9], axes):    reg = KNeighborsRegressor(n_neighbors=n_neighbors)  # 根据参数构建模型    reg.fit(X_train, y_train)    ax.plot(line, reg.predict(line))  # 绘制预测值    # 绘制训练数据、测试数据    ax.plot(X_train, y_train, '^', c='#0000aa', markersize=8)    ax.plot(X_test, y_test, 'v', c='#ff5050', markersize=8)    ax.set_title("{} neightbor(s)\n train score:{:.2f} test score:{:.2f}".format(n_neighbors, reg.score(X_train, y_train), reg.score(X_test, y_test)))    ax.set_xlabel('Feature')    ax.set_ylabel('Target')axes[0].legend(["Model predictions", "Training data/target", "Test data/target"], loc='best')

绘制结果如下:

结果总结:从结果图可以看出,党仅使用1个邻居时,训练集的正确率为100%,测试集得分不高,随着邻居个数增多,拟合的曲线变得更加平滑,但训练集得分降低,测试集得分先增高后降低。

总结

KNN模型容易理解,不需要过多的调节就可以得到不错的结果,但如果训练集数据比较多,预测速度就会变慢,并且还要有比较好的数据预处理。如果要解决的数据是稀疏数据,效果就不好了。当然本部分内容是参考《Python机器学习基础教程》内容并结合自己的理解写出,所以我还是推荐​一下这本书,或者可以在订阅号“AIAS编程有道”中回复“Python机器学习基础教程”获取电子档后决定​是否要购买,建议购买正版书籍。​

转载地址:http://hmlxf.baihongyu.com/

你可能感兴趣的文章
View事件分发情况总结
查看>>
运放(二):运放带宽
查看>>
activiti入门列子一个简单的activiti请假流程
查看>>
Quartz入门实例5-处理因执行job超时而错过触发的job
查看>>
Quartz入门实例7-处理被中断的Job
查看>>
Quartz入门实例8-实现一个Job监听器
查看>>
Leetcode 删除排序链表中的重复元素
查看>>
服务器修改端口
查看>>
PHP 2 语句 数据类型 字符串函数 常量
查看>>
微信学习资料
查看>>
JS(1) JavaScript 用法
查看>>
(六) JavaScript 对象
查看>>
开源项目(3-1)行为提取和动作识别
查看>>
[hbase] hbase 基础使用
查看>>
Android入门笔记10: AutoCompleteTextView 自动补全文本
查看>>
Android入门笔记16: EditText 和 返回键
查看>>
909422229_Jeesite多表联合列表分页实现
查看>>
909422229_阻塞与非阻塞的区别
查看>>
Node.js学习 - GET/POST
查看>>
CentOS7安装Nginx并部署
查看>>