决策树学习是什么,第1张

数据挖掘和机器学习中的决策树训练使用决策树作为预测模型来预测样本的类别标记。这种决策树也称为分类树或回归树。在这些树的结构中,叶节点给出类标签,内部节点代表某些属性。

统计学、数据挖掘和机器学习中的决策树训练使用决策树作为预测模型来预测样本的类标记。这种决策树也称为分类树或回归树。在这些树的结构中,叶节点给出类标签,内部节点代表某些属性。

决策树学习是什么,决策树学习是什么,第2张

在决策分析中,决策树可以清晰地表达决策过程。在数据挖掘中,决策树表达的是数据而不是决策。

普及

决策树训练是数据挖掘中常用的方法。目标是创建一个模型来预测样本的目标值。

描述泰坦尼克号乘客生存状况的决策树

一棵树的训练过程如下:根据一个索引,将训练集分成若干子集。这个过程在生成的子集中递归重复,即递归分割。当训练子集的类标签都相同时,递归停止。决策树自顶向下归纳(TDITD)是一种贪婪算法,也是目前为止最常用的训练方法。

数据表示如下:

决策树的类型

在数据挖掘中,有两种主要类型的决策树:

分类树的输出是样本的类别标签。

回归树的输出是一个实数(比如房子的价格,病人住院的时间等。).

术语分类和回归树(CART)包含上述两种决策树,它们是由Breiman等人首先提出的。分类树和回归树有一些相似之处和不同之处——例如,处理在哪里拆分。

一些集成方法产生多个树:

Bagging是一种早期的集成方法,它使用带返回的抽样方法训练几个决策树,最后的结果通过投票产生。

随机森林使用多个决策树来提高分类性能。

Boosting树可用于回归分析和分类决策。

轮伐林——主成分分析(PCA)用于每棵树的训练。

还有许多其他决策树算法,常见的有:

ID3算法

C4.5算法

卡方自动交互检测器(chaid),在生成树过程中被多层分割。

火星可以更好地处理数字数据。

模型表达式

在构造决策树时,我们通常采用自顶向下的方法,在每一步选择最佳属性进行拆分。”最好的& # 8221;的定义是让子节点中的训练集尽可能的纯粹。不同的算法用不同的指标来定义& # 8221;最好的& # 8221;。本节介绍一些最常见的指标。

基尼杂质指数

在CART算法中,基尼杂质表示随机选择的样本在子集内被弄错的可能性。基尼杂质是这个样本被选中的概率乘以它错的概率。当一个节点中的所有样本都是一个类时,基尼杂质为零。

假设y的可能值为{1,2,& # 8230;,m},订单

信息增益

ID3、C4.5和C5.0决策树的生成使用信息增益。信息增益是基于信息论中的信息熵理论。

决策树的优势

与其他数据挖掘算法相比,决策树有很多优点:

易于理解和解释人们很容易理解决策树的含义。

只需要准备少量的数据,其他技术往往需要数据归一化。

它可以处理数字数据和类别数据。其他技术倾向于只处理一种数据类型。比如关联规则只能处理类别数据,而神经网络只能处理数值数据。

使用白盒模型,输出结果可以很容易地用模型的结构来解释。神经网络是黑箱模型,很难解释输出结果。

模型的性能可以通过测试集来验证。可以考虑模型的稳定性。

鲁棒控制。对噪声处理具有良好的鲁棒性。

它能很好地处理大规模数据。

劣势

训练最优决策树是一个完全的NP问题。因此,在实际应用中,启发式搜索算法,如贪婪算法,被用来训练决策树,以达到局部最优。这种算法不能得到最优的决策树。

决策树生成过于复杂会导致无法预测训练集外的数据。这叫过拟合。剪枝机制可以避免这个问题。

有一些决策树解决不好的问题,比如异或问题。解决这个问题时,决策树会变得太大。要解决这个问题,只能改变问题的领域或者使用其他更费时的学习算法(比如统计关系学习或者归纳逻辑编程)。

对于那些具有类别属性的数据,信息增益会有一定程度的抵消。

延长

决策图

在决策树中,从根节点到叶节点的路径采用合并或归并。在决策图中,最小消息长度(MML)可用于连接两条或多条路径。

用进化算法搜索

进化算法可以用来避免局部优化的问题。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 决策树学习是什么

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情