AI科普 | 什么是数据集（训练集、验证集、测试集）？

云烟 • 2024年 9月 26日下午4:55 • 未分类

欢迎大家来到IT世界,在知识的湖畔探索吧!

前言

AI时代数据的重要性不言而喻，我们在之前的文章《AI科普 | 一文读懂AI的三驾马车之数据篇》中已经介绍过数据，本篇文章我们着重介绍一下数据集。

数据集是人工智能领域的核心，它为机器学习算法提供了必要的输入信息，并能验证测试输出的效果。

因此学习掌握数据集的知识是十分重要的一件事情。接下来跟着我一起来了解数据集的相关知识吧。

什么是数据集
数据集的分类
什么是训练集
什么是验证集
什么是测试集
三者的区别
总结

PART/ 01

什么是数据集

数据集，又称为资料集、数据集合或资料集合，英文Data set（或dataset）是一种由数据所组成的集合。

数据集可以是结构化的，如表格数据、数据库数据，

也可以是非结构化的，如图像、文本、音频或视频。数据集的类型决定了它们在AI系统中的用途。

PART/ 02

数据集的分类

常见的数据集类型包括：训练集、验证集、测试集。

这3种数据集有什么区别呢？为了先让大家有一个直观的感觉，这里用一个不恰当的比喻来说明3种数据集之间的关系：

训练集就像上课学习知识；
验证集就像课后做练习题，用来纠正和强化学到的知识；
测试集相当于期末考试，用来最终评估学习效果；

PART/ 03

什么是训练集

训练集（Training Set）：用于构建和训练机器学习模型的数据集。

大家还记得在介绍《机器学习》的文章中，我们提到机器学习的七个步骤，在训练过程中，模型会学习数据中的特征和模式，以便对未来的数据进行预测或分类。因此训练集主要在训练阶段使用。

PART/ 04

什么是验证集

验证集（Validation Set）：在模型训练过程中，用于调整模型参数和防止过拟合的数据集。

验证集可以帮助我们了解模型在未见过的数据上的表现，并根据需要进行调整。

当我们的模型训练好之后，我们并不知道他的表现如何。这个时候就可以使用验证集（Validation Dataset）来看看模型在新数据上的表现如何。同时通过调整超参数，让模型处于最好的状态。

验证集有2个主要的作用：

评估模型效果，为了调整超参数而服务
调整超参数，使得模型在验证集上的效果最好

说明：

验证集不像训练集和测试集，它是非必需的。如果不需要调整超参数，就可以不使用验证集，直接用测试集来评估效果。
验证集评估出来的效果并非模型的最终效果，主要是用来调整超参数的，模型最终效果以测试集的评估结果为准。

PART/ 05

什么是测试集

测试集（Test Set）：用于评估模型性能的数据集。

在模型训练完成后，我们会使用测试集来评估模型在未见过的数据上的表现，以了解模型的泛化能力。

通过测试集的评估，我们会得到一些最终的评估指标，例如：准确率、精确率、召回率、F1等。

PART/ 06

三种数据集的详细区别

训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）在机器学习和数据科学中各自扮演着不同的角色，它们的区别主要体现在以下几个方面：

1、目的和用途：

训练集：主要用于训练机器学习模型，即使用训练集中的数据来拟合模型的参数。通过最小化训练集上的损失函数（loss function），模型能够学习到数据的内在规律和特征。
验证集：在模型训练过程中用于调整模型的超参数（hyperparameters）和进行模型选择。验证集可以帮助我们避免过拟合，因为当模型在训练集上表现良好但在验证集上表现不佳时，说明模型可能过度拟合了训练数据。
测试集：主要用于评估已经训练好的模型的性能。测试集是在模型训练过程中完全不可见的，只有在模型选择和调优完成后，才使用测试集来评估模型的泛化能力，即模型在未见过的数据上的表现。

2、数据独立性：

训练集和验证集在模型训练过程中是可见的，但验证集不直接参与模型的参数训练。测试集在模型训练过程中是不可见的，以确保测试结果的公正性。

这三个集合应该尽量保持数据分布的独立性，以避免数据泄露（data leakage）问题，即测试集中的数据在某种程度上被模型在训练过程中“看到”过。

3、使用时机：

在模型训练开始之前，首先需要将数据集划分为训练集、验证集和测试集。

然后，使用训练集来训练模型，并在每个训练周期（epoch）结束后使用验证集来评估模型的性能，以便调整超参数或提前停止训练。

最后，在模型选择和调优完成后，使用测试集来评估模型的最终性能。

4、数据量：

一般来说，训练集的数据量最大，验证集次之，测试集最小。但具体的数据量比例取决于数据集的大小、任务的复杂性以及计算资源的限制。

5、重复利用：

训练集在模型训练过程中会被多次使用，每次迭代都会根据训练集的数据来更新模型的参数。

验证集在模型训练和调优过程中也会被多次使用，但通常不会用于模型的最终评估。

测试集在模型评估完成后通常不再使用，除非需要对比不同模型或不同参数设置下的性能。但在某些在线学习或增量学习的场景中，可能会将测试集重新划分为新的训练集和测试集。

总结

综上所述

训练集是用于构建和训练机器学习模型的数据集。在训练过程中，模型会学习数据中的特征和模式，以便对未来的数据进行预测或分类。

验证集是在模型训练过程中，用于调整模型参数和防止过拟合的数据集。验证集可以帮助我们了解模型在未见过的数据上的表现，并根据需要进行调整。

测试集是用于评估模型性能的数据集。在模型训练完成后，我们会使用测试集来评估模型在未见过的数据上的表现，以了解模型的泛化能力。

三者在目的和用途、数据独立性、使用时机、数据量、重复利用等方面有区别。

通过合理地使用训练集、验证集和测试集，我们可以更加准确地评估模型的性能，并避免过拟合和欠拟合等问题。

关于数据集的知识，本篇文章我们就讲解到这里，下一篇我们将针对如何划分数据集展开讲解，敬请期待~

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/74661.html