大数据算法研究之决策树

大数据算法研究之决策树

决策树是用于分类和预测的最强大,最流行的工具

技术开发 编程 技术框架 技术发展

 

大数据算法研究之决策树

决策树是用于分类和预测的最强大,最流行的工具

决策树:决策树是用于分类和预测的最强大,最流行的工具。决策树是类似于树结构的流程图,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,并且每个叶节点(终端节点)都具有类标签。

decision-tree-1.jpg

PlayTennis概念的决策树。

决策树的构建:

可以通过基于属性值测试将源集划分为子集来“学习”树。以称为递归分区的递归方式在每个派生子集上重复此过程。当节点上的子集都具有相同的目标变量值时,或者拆分不再为预测增加值时,递归完成。决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探索性知识发现。决策树可以处理高维数据。一般而言,决策树分类器具有良好的准确性。决策树归纳法是学习分类知识的典型归纳方法。决策树方法的优点和缺点决策树方法的优点是:

  • 决策树能够生成可理解的规则。

  • 决策树无需太多计算即可执行分类。

  • 决策树能够处理连续变量和分类变量。

  • 决策树清楚地表明了哪些字段对于预测或分类最重要。

决策树方法的缺点:

  • 在目标是预测连续属性值的估计任务中,决策树不太合适。

  • 决策树很容易在分类问题中出现错误,因为分类很多,训练示例相对较少。

  • 决策树训练起来在计算上可能会很昂贵。增长决策树的过程在计算上是昂贵的。在每个节点上,必须先对每个候选拆分字段进行排序,然后才能找到其最佳拆分。在某些算法中,使用字段组合,并且必须进行搜索以获取最佳组合权重。由于必须形成并比较许多候选子树,因此修剪算法也可能很昂贵。

创建决策树的七个技巧

以下是创建决策树图的一些最佳实践提示:

  • 启动树。在页面左边缘附近绘制一个矩形,以表示第一个节点。在此矩形中,写下将要做出决定的第一个问题,主要思想或准则。

  • 添加分支。对于每种可能的替代方法,请绘制一条单独的线,该线从节点开始并朝页面右侧移动。以贷款批准流程为例,第一个节点可能是“收入”,并且关联的分支机构可能是<$ 50K,$ 51K-$ 100K,> $ 101K。

  • 添加叶子。决策树的大部分将是叶节点。在每个分支的末尾添加一个叶子节点。用其他问题或准则填充每个叶节点。

  • 添加更多分支。重复为叶中每个可能的替代添加分支的过程。像以前一样标记每个分支。

  • 完成决策树。继续添加树叶和树枝,直到解决了每个问题或标准并获得结果为止。

  • 终止分支。继续添加树叶和树枝,直到解决了每个问题或标准并获得结果为止。

  • 验证准确性。与所有利益相关者协商以核实准确性。

技术开发 编程 技术框架 技术发展