欢迎大家来到IT世界,在知识的湖畔探索吧!
数据挖掘 Data Mining
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
几年来随着大数据、人工智能技术的发展,数据挖掘迎来了一个小高潮,其发展离不开以下几项技术的支持:
- 海量大数据收集与存储,ES、Hadoop为代表。
- 强大的集群计算处理能力,以Spark、MapReduce为代表。
- 数据挖掘算法,以TensorFlow为代表。
数据挖掘与传统数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。
数据挖掘的功能
- 自动预测趋势和行为,例如预测市场的变化。
- 关联分析,例如在医学影响领域研究图像和疾病的关系。
- 聚类。
- 概念描述。
- 偏差检测。
数据挖掘常用技术
- 关联分析
- 序列分析
- 分类分析
- 聚类分析
- 预测
- 时间序列分析
数据挖掘的流程
数据挖掘的流程大致如下:
- 问题定义。
- 建立数据挖掘库。
- 分析数据。
- 调整数据。
- 模型化。
- 评价和解释。
数据分析的过程需要不同专长的人员参与,主要分为三类:
- 业务分析人员,要求精通业务,能够解释业务对象,并提出业务需求。
- 数据分析人员,精通数据分析技术,并对统计学有熟练的掌握,具备将业务需求转化为数据挖掘各步操作的能力,并能够选择合适的技术。
- 数据管理人员,能够管理数据采集和数据仓库。
常见的数据库管理系统
教材中介绍了四款数据库管理系统,分别是Oracle、Sybase、Informix、SQL Server,都是体量非常大的数据库,单单从教材的内容是不足以了解各个数据的技术内容的。相对来说,目前Oracle、SQL Server仍被众多的国内金融、大企业所使用,但是Sybase、Informix的使用越来越少。而随着互联网起来的Mysql、MongoDB,以及Redis内存型数据库越来越流行。
Oracle
Oracle仍是当今世界中非常重要的一款商用数据库管理系统,通过RAC、DataGard等技术来提供数据的安全性保证,并且通过ExData一体机来输出高性能的数据库管理系统。Oracle的技术细节讲起来一本书都不够,教材中的内容很多都比较老了,建议大家简单扫一眼即可。
Sybase
Sybase是C/S架构的数据库管理系统。
Informix
Informix是一个跨平台的数据库管理系统,现在很多开源的数据库系统大多不支持小型机或者支持都比较弱,目前看趋势都是采用X86服务器。
SQL Server
SQL Server是Windows平台上的数据库管理系统,具有强大的功能,主要包括四个基本服务器组件 Open Data Services、MSSQL Server、SQL Server Agent、MSDTC。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/35779.html