RainForest——雨林算法框架大数据集决策树快速生成框架.ppt
上传人:天马****23 上传时间:2024-09-11 格式:PPT 页数:20 大小:229KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

RainForest——雨林算法框架大数据集决策树快速生成框架.ppt

RainForest——雨林算法框架大数据集决策树快速生成框架.ppt

预览

免费试读已结束,剩余 10 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

决策树简介Sprint算法的缺点雨林算法框架综述雨林算法框架设计方案:AVC_set{//存储属性的各个值DistinctValue[]//存储属性各个值在某个类上对应的计数DistinctValueCountForClassA[]DistinctValueCountForClassB[]……}AVC_group{//节点n中的每个属性的avc_setAVC_set[]}自顶向下决策树算法BuildTree(Nodem,datapatitionD,algorithmdecisionTree)对D使用决策树算法decisionTree得到分裂指标crit(n)令k为节点n的子节点个数if(k>0)建立n的k个子节点c1,…,ck使用最佳分割将D分裂为D1,…,Dkfor(i=1;i<=k;i++)BuildTree(ci,Di)endforendifRainForest算法框架重新定义的部分:1a)for每一个属性的谓词p,寻找最佳的分割1b)decisionTree.find_best_partitioning(AVC-setofp)1c)endfor2a)k=decisionTree.decide_splitting_criterion();//决定最终的分割算法分析雨林算法的常规过程算法综述算法RF-Write算法RF-Read算法RF-Read(续)混合算法RF-Hybrid算法RF-Vertical估算Avc-Group的大小与sprint算法的比较与sprint算法的比较:(产生较大决策树时的情形)排序执行效率比较:排序对象不同分布执行效率比较:I/O执行次数不同结论