决策树的模型策略和算法

模型：决策树的学习本质上就是从训练数据集中归纳出一组分类规则，使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看，学习也是基于训练数据集估计条件概率模型。

策略：决策树的损失函数通常是正则化的极大似然函数，学习的策略是以损失函数为目标函数的最小化。

算法：由于这个最小化问题是一个NP完全问题，现实中，我们通常采用启发式算法来近似求解这一最优化问题，因此得到的决策树是次最优的。该启发式算法可分为三步：特征选择、模型生成、决策树的剪枝

决策树的损失函数理解

对于决策树的模型和算法，都还好理解，但策略中的损失函数，有点奇怪

右边第一项表示模型对训练数据的预测误差大小，第二项表示模型的复杂度，也就是用叶节点表示，防止过拟化。

我的理解：

因为如果一个叶子节点下的所有样本都是一个类别，那说明它的预测就没有偏差，对应的熵为0，而如果有不一样类别的样本，说明预测是有偏差的，这个误差就可以用熵来表示，但熵只考虑概率，不考虑样本的个数，因此乘上样本数为该节点的总误差。

该问题参考：https://blog.csdn.net/wjc1182511338/article/details/76793598

信息增益和信息增益比

信息增益的问题：偏向于选择取值多的特征

信息增益比的问题：信息增益比通过加一个惩罚系数来克服信息增益的不足，但也带来了相反的问题，那就是它会偏向于选择取值少的特征，可以计算一下，当一个特征只有一个取值的时候，信息增益比的分母为0，信息增益比会无穷大，则一定会选它，但这样的选择也没有任何意义。

基于以上两者的缺点，实际的应用并不是直接选择信息增益比最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益比最高的特征，去避免偏向于取值多或少的特征。

决策树算法比较

ID3和C4.5构建的不一定是二叉树，但CART一定是二叉树。

ID3和C4.5只能用于分类，CART可用于分类与回归。这应该也是为什么CART要是二叉树的原因（之一），因为如果是多叉树，那对于连续特征的划分就要切2刀以上，搜索复杂度很很高。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/22039.html