机器学习之决策树知识思考

机器学习之决策树知识思考决策树的模型策略和算法模型:决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度

欢迎大家来到IT世界,在知识的湖畔探索吧!

决策树的模型策略和算法

模型:决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看,学习也是基于训练数据集估计条件概率模型。

策略:决策树的损失函数通常是正则化的极大似然函数,学习的策略是以损失函数为目标函数的最小化。

算法:由于这个最小化问题是一个NP完全问题,现实中,我们通常采用启发式算法来近似求解这一最优化问题,因此得到的决策树是次最优的。该启发式算法可分为三步:特征选择、模型生成、决策树的剪枝

决策树的损失函数理解

对于决策树的模型和算法,都还好理解,但策略中的损失函数,有点奇怪

机器学习之决策树知识思考

右边第一项表示模型对训练数据的预测误差大小,第二项表示模型的复杂度,也就是用叶节点表示,防止过拟化。

机器学习之决策树知识思考

我的理解:

因为如果一个叶子节点下的所有样本都是一个类别,那说明它的预测就没有偏差,对应的熵为0,而如果有不一样类别的样本,说明预测是有偏差的,这个误差就可以用熵来表示,但熵只考虑概率,不考虑样本的个数,因此乘上样本数为该节点的总误差。

该问题参考:https://blog.csdn.net/wjc1182511338/article/details/76793598

信息增益和信息增益比

信息增益的问题:偏向于选择取值多的特征

信息增益比的问题:信息增益比通过加一个惩罚系数来克服信息增益的不足,但也带来了相反的问题,那就是它会偏向于选择取值少的特征,可以计算一下,当一个特征只有一个取值的时候,信息增益比的分母为0,信息增益比会无穷大,则一定会选它,但这样的选择也没有任何意义。

基于以上两者的缺点,实际的应用并不是直接选择信息增益比最大的特征,而是现在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益比最高的特征,去避免偏向于取值多或少的特征。

决策树算法比较

ID3和C4.5构建的不一定是二叉树,但CART一定是二叉树。

ID3和C4.5只能用于分类,CART可用于分类与回归。这应该也是为什么CART要是二叉树的原因(之一),因为如果是多叉树,那对于连续特征的划分就要切2刀以上,搜索复杂度很很高。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/22039.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信