如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
DataMining第四章4.1预备知识4.2解决分类问题的一般方法分类例子分类:定义分类过程分类技术决策树定义决策树例1决策树例2决策树应用过程:使用模型测试数据-1使用模型测试数据-2使用模型测试数据-3使用模型测试数据-4使用模型测试数据-5使用模型测试数据-6决策树构造算法Hunt算法结构例P93~P95预测拖欠银行贷款的贷款者如何生成决策树?决策树归纳的设计问题1:1.1定义属性测试条件标称属性的划分方法:(数据集见P122习题2)多路划分法二分法(分组必须保留属性值之间的序关系)注意:第三种划分方法合理吗?连续属性的划分方法决策树归纳的设计问题1:1.2找到最好划分方法选择最佳划分的度量结点不纯度的度量方法:计算不纯性方法1:熵例:分别计算3个结点的熵练习1计算不纯性方法2:基尼指数(gini)例:分别计算3个结点的Gini指数练习2计算不纯性方法3:分类差错率例:分别计算3个子女结点的分类差错率练习3二元分类问题结点不纯性度量之间的比较:利用不纯性度量,选择最佳划分利用增益Δ来选择最佳划分示意:练习4改进方法比较不同类型的属性的划分(以Gini指数为例)基于GINI指数的二元属性划分方法基于GINI指数的标称属性划分方法基于GINI指数的连续属性划分方法改进方法:决策树归纳的设计问题2:如何停止分裂过程?4.3.5决策树归纳算法TreeGrowth算法框架(P101)案例学习:4.3.6Web机器人检测4.3.7决策树归纳的特点4.4拟合不足和过分拟合噪声导致过分拟合缺乏代表性样本导致过分拟合4.4.5处理决策树归纳中的过分拟合演讲完毕,谢谢观看!