欢迎大家来到IT世界,在知识的湖畔探索吧!
做数据分析建模的时候,我们经常会遇到一些让人困惑的情况,比如:模型各个参数都表现的很好,但是对模型怎么优化准确度就是上不来,再有就是模型在训练集中效果很好但是在测试集中准确度就是不够,这个时候处了过拟合我们还应该考虑到可能是数据的问题,数据多重共线性就会导致模型准确度不高或者过拟合现象!
什么是多重共线性?
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
如何检测多重共线性?
1,最简单的方法就是计算模型中各个自变量之间的相关系数,如果存在一个或多个相关系数显著相关,就表示存在多重共线性问题。,2,
2,看结果,比如线性回归中的模型检验(F检验)显著,但是回归系数的T检验却不显著
3,spss共线性诊断,SPSS回归分析中有共线性诊断,分析—回归—线性回归——统计量,在弹出的对话框中选择“共线性诊断”就可以了
一般认为:如果容差(tolerance)<=0.1或方差膨胀因子VIF(是容差的倒数)>=10,则说明自变量间存在严重共线性情况
如图,是对德国人口老龄化情况的分析,其中y是老龄化情况,线性回归的x1、x2、x3分别为人均国内生产总值、出生率、每个医生平均负担人口数。
判断方法1:特征值,存在维度为3和4的值约等于0,说明存在比较严重的共线性。
判断方法2:条件索引列第3第4的值大于10,可以说明存在比较严重的共线性。
判断方法3:比例方差内存在接近1的数(0.99),可以说明存在较严重的共线性。
怎样处理多重共线性?
直接删除
如果明确的知道是哪个变量引起的多重共线问题,可以将该变量直接删除。但是要注意删除的变量确定为相对不重要并从偏相关系数检验证实为产生多重共线的原因。
改变解释变量的形式
改变解释变量的形式是解决多重共线性的一种简易方法。可以转化变量或者根据现有变量生成新的变量纳入分析
增加样本的数量
样本信息的不充分导致变量之间的相关性系数较高,增加样本可以降低变量之间的相关性,但是由于样本的获取较为困难,因此该方法并不常用。
正则化
可以不直接对特征进行改变,而是在训练模型时,加入正则化项,如L2正则化项。
逐步回归法(此法最常用的,也最有效)
逐步回归(Stepwise Regression)是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。
可以做主成分回归
主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间。当采取主成分提取了新的变量后,往往这些变量间的组内差异小而组间差异大,起到了消除共线性的问题。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/75629.html