欢迎大家来到IT世界,在知识的湖畔探索吧!
一、鸢尾花:
1、测量数据:花瓣的长度和宽度,花萼的长度和宽度,所有测量结果都以厘米为单位。
2、有三个品种:setosa,versicolor,virginnica。
3、数据集中每朵鸢尾花叫做一个数据点,它的品种叫做它的标签。
4、载入iris数据集示例
from sklearn import datasets
iris = datasets.load_iris()
欢迎大家来到IT世界,在知识的湖畔探索吧!
查看数据
(1)查看iris.keys()
结果如下:
欢迎大家来到IT世界,在知识的湖畔探索吧!dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
(2)查看data类型和维度
查看代码:
print(type(iris['data']))
print(iris['data'].shape)
查看结果:
代码运行:
(3)查看data数据
其中data数组的每一行对应一朵花的测量数据,列代表每朵花的四个测量数据
查看代码:print(iris[‘data’])
查看结果:
代码运行:
机器学习的个体叫做样本,其属性叫做特征,data数组的形状是样本数乘以特征数。
(4)查看target类型和维度
查看代码:
欢迎大家来到IT世界,在知识的湖畔探索吧!print(iris_dataset['target'].shape)
print(iris_dataset['target_names'])
print(iris_dataset['target'])
查看结果:
代码运行:
data中的每个数据点被转换成target的一个值:0,1,2。分别代表三个品种。
5、训练数据和测试数据
一部分数据用于构建模型,叫做训练数据,另一部分用于评估模型性能,叫做测试数据。
利用scikit-learn中的train_test_split函数可以实现这个功能。这个函数将%75的数据用作训练集,将25%用作测试集。
这个函数需要设置random_state,给其赋一个值,当多次运行此段代码能够得到完全一样的结果,别人运行此代码也可以复现你的过程。若不设置此参数则会随机选择一个种子,执行结果也会因此而不同了。虽然可以对random_state进行调参,但是调参后在训练集上表现好的模型未必在训练集上表现好,所以一般会随便选取一个random_state的值作为参数。
代码:
X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], random_state=0)
print("X_train:{}".format(X_train[:10]))
print("y_train:{}".format(y_train[:10]))
结果:
运行代码
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/18036.html