欢迎大家来到IT世界,在知识的湖畔探索吧!
决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在机器学习中,决策树是一个预测模型,代表的是对象属性与对象值之间的一种映射关系,这一度量是基于信息学理论中熵的概念。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。
决策树的算法
决策树是机器学习中一类非常常见的算法,它是一种分类与回归算法,但以分类为主,它的决策思维非常符合人类正常的决策方式。在决策过程中,对于特征的选择还是比较重要的。
决策树主要算法
1、ID3算法
该算法是以信息论为基础,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类。在ID3算法中,选择信息增益最大的属性作为当前的特征对数据集分类,通过不断的选择特征对数据集不断划分,以信息熵和信息增益作为衡量标准的分类算法。
2、C4.5算法
C4.5算法与ID3算法非常相似,唯一的不同是,ID3算法是用信息增益来选择特征,而C4.5算法使用信息增益率来选择特征。在使用信息增益作为训练数据集特征时会偏向于取值较多的特征,而用信息增益率则避免了这一问题。
3、CART算法
分类与回归树(Classification And Regression Tree) 是一种十分有效的非参数分类和回归方法,它通过构建二叉树达到预测目的。CART算法既可用作分类树,也可以用作回归树。
作为分类树时,其本质与ID3、C4.5并有多大区别,只是选择特征的依据不同而已。CART分类时,使用基尼指数来选择最好的数据分割的特征,基尼指数描述的是纯度,与信息熵的含义相似。
决策树的学习过程
特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。
决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止声场。
剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模。
决策树的优缺点
优点
1.可以生成可以理解的规则。
2.计算量相对来说不是很大。
3.可以处理连续和种类字段。
4.决策树可以清晰的显示哪些字段比较重要。
缺点
1.对连续性的字段比较难预测。
2.对有时间顺序的数据,需要很多预处理的工作。
3.当类别太多时,错误可能就会增加的比较快。
4.一般的算法分类的时候,只是根据一个字段来分类。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/35823.html