欢迎大家来到IT世界,在知识的湖畔探索吧!
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。
数据挖掘(Data mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。
数据挖掘的基本任务
- 利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
数据挖掘建模过程
- 定义挖掘目标、数据取样 、数据探索 、数据预处理、挖掘建模、模型评价
Python 数据挖掘相关扩展库
- Numpy 提供数组支持,以及相应的高效的处理函数
- Scipy 提供矩阵支持,以及矩阵相关
- Matplotlib 强大的数据可视化工具,作图库
- Pandas 强大、灵活的数据分析和探索工具
- StatsModels 统计建模和计量经济学,包括描述统计,统计模型估计和推断
- Scikit-Learn 支持回归、分类、聚类等强大的机器学习库
- Keras 深度学习库,用于建立神经网络以及深度学习模型(Anaconda Navigator)
- Gensim 用来做文本主题模型的库,文本挖掘可能用到
- Numpy 基本操作 (数组的操作)
import numpy as np
a= np.array([2,0,1,5])
print a,type(a)
print (a[:3])
print (a.min())
a.sort()
print (a)
b=np.array([[1,2,3],[4,5,6]])
print b
print (b*b)
print (b**2)
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
[2 0 1 5] <type ‘numpy.ndarray’>
[2 0 1]
0
[0 1 2 5]
[[1 2 3]
[4 5 6]]
[[ 1 4 9]
[16 25 36]]
[[ 1 4 9]
[16 25 36]]
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- Scipy (矩阵预算,线性代数、积分、插值、FFT、信号处理、图像处理等的计算)
求解线性方程组和数值积分
from scipy.optimize import fsolve # 导入求解方程组的函数
def f(x):
x1=x[0]
x2=x[1]
return [2*x1-x2**2-1,x1**2-x2-2]
result=fsolve(f,[1,1])
print (result)
from scipy import integrate #导入积分函数
def g(x):
return (1-x**2)**0.5
pi_2,err=integrate.quad(g,-1,1)
print (pi_2*2),err
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
[ 1.91963957 1.68501606]
3.14159265359 1.00023567207e-09
- 1
- 2
- 3
- Matplotlib 作图的基本代码
import numpy as np
import matplotlib.pyplot as plt
x=np.linspace(0,10,1000) #作图的变量自变量
y=np.sin(x)+1
z=np.cos(x**2)+1
plt.figure(figsize=(8,4)) #设置图像大小
plt.plot(x,y,label=’$ sin x+1
,color=’red’,linewidth=2) #作图,设置标签、线条颜色,宽度
plt.plot(x,z,’b–‘,label=’$cos x^2+1
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/18025.html