学习鸢尾花数据集[亲测有效]

学习鸢尾花数据集[亲测有效]鸢尾花:1、测量数据:花瓣的长度和宽度,花萼的长度和宽度,所有测量结果都以厘米为单位。数据集中每朵鸢尾花叫做一个数据点,它的品种叫做它的标签。

欢迎大家来到IT世界,在知识的湖畔探索吧!

一、鸢尾花:

1、测量数据:花瓣的长度和宽度,花萼的长度和宽度,所有测量结果都以厘米为单位。

2、有三个品种:setosa,versicolor,virginnica。

3、数据集中每朵鸢尾花叫做一个数据点,它的品种叫做它的标签。

4、载入iris数据集示例

from sklearn import datasets
iris = datasets.load_iris()

欢迎大家来到IT世界,在知识的湖畔探索吧!

查看数据

(1)查看iris.keys()

结果如下:

欢迎大家来到IT世界,在知识的湖畔探索吧!dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
学习鸢尾花数据集[亲测有效]

(2)查看data类型和维度

查看代码:

print(type(iris['data']))
print(iris['data'].shape)

查看结果:

学习鸢尾花数据集[亲测有效]

代码运行:

学习鸢尾花数据集[亲测有效]

(3)查看data数据

其中data数组的每一行对应一朵花的测量数据,列代表每朵花的四个测量数据

查看代码:print(iris[‘data’])

查看结果:

学习鸢尾花数据集[亲测有效]

代码运行:

学习鸢尾花数据集[亲测有效]

机器学习的个体叫做样本,其属性叫做特征,data数组的形状是样本数乘以特征数。

(4)查看target类型和维度

查看代码:

欢迎大家来到IT世界,在知识的湖畔探索吧!print(iris_dataset['target'].shape)
print(iris_dataset['target_names'])
print(iris_dataset['target'])

查看结果:

学习鸢尾花数据集[亲测有效]

代码运行:

学习鸢尾花数据集[亲测有效]

data中的每个数据点被转换成target的一个值:0,1,2。分别代表三个品种。

5、训练数据和测试数据

一部分数据用于构建模型,叫做训练数据,另一部分用于评估模型性能,叫做测试数据。

利用scikit-learn中的train_test_split函数可以实现这个功能。这个函数将%75的数据用作训练集,将25%用作测试集。

这个函数需要设置random_state,给其赋一个值,当多次运行此段代码能够得到完全一样的结果,别人运行此代码也可以复现你的过程。若不设置此参数则会随机选择一个种子,执行结果也会因此而不同了。虽然可以对random_state进行调参,但是调参后在训练集上表现好的模型未必在训练集上表现好,所以一般会随便选取一个random_state的值作为参数。

代码:

X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], random_state=0)
print("X_train:{}".format(X_train[:10]))
print("y_train:{}".format(y_train[:10]))

结果:

学习鸢尾花数据集[亲测有效]

运行代码

学习鸢尾花数据集[亲测有效]

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/18036.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信