如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第26卷第3期Vol.26No.3统计与信息论坛Statistics&InformationForum2011年3月Mar.,2011收稿日期:2010-08-10基金项目:中央高校基本科研业务费专项资金基于数据挖掘的数据质量管理研究(2010221040);国家统计局重点项目金融风险中的统计方法(2009LZ045)作者简介:方匡南,男,浙江台州人,经济学博士,助理教授,研究方向:数据挖掘、金融计量;吴见彬,女,福建宁德人,硕士生,研究方向:数据挖掘。!统计理论与方法?随机森林方法研究综述方匡南a,b,吴见彬a,朱建平a,b,谢邦昌a,b(厦门大学a.经济学院计划统计系;b.数据挖掘研究中心,福建厦门361005)摘要:随机森林(RF)是一种统计学习理论,它是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合,在医学、生物信息、管理学等领域有着广泛的应用。为此,介绍了随机森林原理及其有关性质,讨论其最新的发展情况以及一些重要的应用领域。关键词:随机森林;分位数回归森林;生存回归森林;应用中图分类号:O212:F222.3文献标志码:A文章编号:1007-3116(2011)03-0032-07一、引言由于传统的分类模型往往精度不高,且容易出现过拟合问题。因此,很多学者通过聚集多个模型来提高预测精度,这些方法称为组合(ensemble)或分类器组合(classifiercombination)方法。首先利用训练数据构建一组基分类模型(baseclassifier),然后通过对每个基分类模型的预测值进行投票(因变量为分类变量时)或取平均值(因变量为连续数值变量时)来决定最终预测值。为了生成这些组合模型,通常需要生成随机向量来控制组合中每个决策树的生长。bagging是早期组合树方法之一,又称自助聚集(bootstrapaggregating),是一种从训练集中随机抽取部分样本(不一定有放回抽样)来生成决策树的方法[1]。另外一种方法是随机分割选取,该方法在每个结点从k个最优分割中随机选取一种分割[2]。Ho关于随机子空间(Randomsubspace)方法做了很多研究,该方法通过对特征变量随机选取子集来生成每棵决策树[3]。Amit和Geman定义了很多几何属性以及从这些随机选择属性中寻找每个结点的最优分割[4]。该方法对Breiman2001年提出的随机森林(RF)起了很大的启发作用[5]。以上这些方法的一个共同特征是,为第k棵决策树生成随机向量k,且k独立同分布于前面的随机向量1,#,k-1。利用训练集和随机向量k生成一棵决策树,得到分类模型h(X,k),其中X为输入变量(自变量)。比如,在bagging方法中,随机向量可以理解为通过随机扔N把飞镖在N个箱子上扔中的结果生成,其中N是训练集中的样本记录数。在生成许多决策树后,通过投票方法或取平均值作为最后结果,我们称这个为随机森林方法。随机森林(RF)是一种统计学习理论,它是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。大量的理论和实证研究都证明了RF具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。可以说,RF是一种自然的非线性建模工具,是目前数据挖掘、生物信息学的最热门的前沿研究领域之一。目前中国对RF的研究还是非常少,因此,系统地总结整理RF最新的理论和应用研究情况很有意义。32二、随机森林原理与性质(一)原理随机森林分类(RFC)是由很多决策树分类模型{h(X,k),k=1,#}组成的组合分类模型,且参数集{k}是独立同分布的随机向量,在给定自变量X下,每个决策树分类模型都由一票投票权来选择最优的分类结果。RFC的基本思想:首先,利用bootstrap抽样从原始训练集抽取k个样本,且每个样本的样本容量都与原始训练集一样;其次,对k个样本分别建立k个决策树模型,得到k种分类结果;最后,根据k种分类结果对每个记录进行投票表决决定其最终分类,详见图1。图1RF示意图