起重采样方法在高度不平衡数据分类中的应用研究.docx
上传人:15****47 上传时间:2024-09-10 格式:DOCX 页数:43 大小:2MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

起重采样方法在高度不平衡数据分类中的应用研究.docx

起重采样方法在高度不平衡数据分类中的应用研究.docx

预览

免费试读已结束,剩余 33 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

PAGE\*MERGEFORMATVI重采样方法在高度不平衡数据分类中的应用研究摘要随着信息技术的飞速发展,医疗、银行、互联网等领域数据的数据信息会被广泛的收集,在这其中不平衡数据普遍存在。不平衡数据学习现在也是机器学习领域的研究热点之一。在机器学习传统的分类算法中,通常是在数据集的类别样本数均匀分布和错分代价相等的情况下假设的。然而在实际的数据大多数都存在不平衡的特点,这就导致传统分类方法在为了保证整体分类准确性上偏向于多数类而忽略了少数类的数据,最终数据没办法得到准确有效的分类,这种情况在不平衡比越大的数据集中所带来较差的分类效果越明显。然而这些少数类的样本通常都存在很高的错分代价,所以不平衡数据集分类是我们所研究的重点。对于不平衡数据分类的研究分为三个层面,分别为数据预处理层面、特征层面和分类算法层面。本文针对高度不平衡数据集所存在不平衡分类问题,从数据预处理的角度提出切实可行的的重采样方法,并且通过一系列的实验证明这些方法是合理可行的,对高度不平衡数据的分类问题分析,针对存在的问题本文主要做了下列两种不同的重采样方法的研究:1)针对少数类样本的数据特征表达不明显进而对分类器的性能产生影响,本文基于在数据预处理层面上对高度不平衡数据集采用SMOTE算法以及对针对使用SMOTE算法存在较高的时间复杂度,而且很有可能会加大对噪声的传播从而影响分类器的性能,本文采用了Borderline_SMOTE,并且对比了ADASYN的过采样方法在分别在Bagging、AdaBoost、C4.5、KNN分类算法下研究分类效果。2)针对在不平衡数据集中多数类样本远大于少数类样本数量,采取基于在数据预处理层面上对数据集采用方法,但此方法很有可能会在删除多数类样本时把多数类中的重要信息删除,造成分类信息的缺失,进而影响分类效果。进而本文又采用TL、NCL的欠采样方法在分别在Bagging、AdaBoost、C4.5、KNN分类器下研究分类效果。根据实验对所得数据进行数据信息分析统计,得出SMTOTE方法在Bagging分类算法下对不平衡数据集处理效果最好,结果为0.803464823。关键词:高度不平衡数据;重采样方法;不平衡分类;机器学习AbstractWiththerapiddevelopmentofinformationtechnology,datainformationofmedical,banking,Internetandotherfieldsofdatawillbewidelycollected,inwhichimbalancedataiswidespread.Imbalanceddatalearningisalsooneoftheresearchhotspotsinthefieldofmachinelearning.Intraditionalclassificationalgorithmsformachinelearning,itisusuallyassumedthatthenumberofclasssamplesinthedatasetisevenlydistributedandthecostofmisclassificationisequal.However,mostoftheactualdatahaveunbalancedcharacteristics,whichleadstothetraditionalclassificationmethodinordertoensuretheoverallclassificationaccuracyisbiasedtothemajorityclassandignorethedataoftheminorityclass.Thefinaldatacannotbeaccuratelyandeffectivelyclassified.Thissituationismoreobviousinthepoorclassificationeffectcausedbythelargerimbalanceratio.However,theseminoritytypesofsamplesoftenhaveahighmisclassificationcost,soimbalanceddatasetclassificationisthefocusofourresearch.Theresearchonimbalanceddataclassificationisdividedintothreelevels:datapreprocessinglevel,featurelevelandclassificationalgorithmlevel.Aimingatth