起重采样方法在高度不平衡数据分类中的应用研究-第一文库 | 海量文档资源下载与分享平台 - 涵盖3.5亿+学术、行业、教育文档

搜文档

免费试读已结束，剩余 33 页请下载文档后查看

10 金币

下载此文档

/ 43

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

PAGE\*MERGEFORMATVI重采样方法在高度不平衡数据分类中的应用研究摘要随着信息技术的飞速发展，医疗、银行、互联网等领域数据的数据信息会被广泛的收集，在这其中不平衡数据普遍存在。不平衡数据学习现在也是机器学习领域的研究热点之一。在机器学习传统的分类算法中，通常是在数据集的类别样本数均匀分布和错分代价相等的情况下假设的。然而在实际的数据大多数都存在不平衡的特点，这就导致传统分类方法在为了保证整体分类准确性上偏向于多数类而忽略了少数类的数据，最终数据没办法得到准确有效的分类，这种情况在不平衡比越大的数据集中所带来较差的分类效果越明显。然而这些少数类的样本通常都存在很高的错分代价，所以不平衡数据集分类是我们所研究的重点。对于不平衡数据分类的研究分为三个层面，分别为数据预处理层面、特征层面和分类算法层面。本文针对高度不平衡数据集所存在不平衡分类问题，从数据预处理的角度提出切实可行的的重采样方法，并且通过一系列的实验证明这些方法是合理可行的，对高度不平衡数据的分类问题分析，针对存在的问题本文主要做了下列两种不同的重采样方法的研究：1）针对少数类样本的数据特征表达不明显进而对分类器的性能产生影响，本文基于在数据预处理层面上对高度不平衡数据集采用SMOTE算法以及对针对使用SMOTE算法存在较高的时间复杂度，而且很有可能会加大对噪声的传播从而影响分类器的性能，本文采用了Borderline_SMOTE，并且对比了ADASYN的过采样方法在分别在Bagging、AdaBoost、C4.5、KNN分类算法下研究分类效果。2）针对在不平衡数据集中多数类样本远大于少数类样本数量，采取基于在数据预处理层面上对数据集采用方法，但此方法很有可能会在删除多数类样本时把多数类中的重要信息删除，造成分类信息的缺失，进而影响分类效果。进而本文又采用TL、NCL的欠采样方法在分别在Bagging、AdaBoost、C4.5、KNN分类器下研究分类效果。根据实验对所得数据进行数据信息分析统计，得出SMTOTE方法在Bagging分类算法下对不平衡数据集处理效果最好，结果为0.803464823。关键词：高度不平衡数据；重采样方法；不平衡分类；机器学习AbstractWiththerapiddevelopmentofinformationtechnology,datainformationofmedical,banking,Internetandotherfieldsofdatawillbewidelycollected,inwhichimbalancedataiswidespread.Imbalanceddatalearningisalsooneoftheresearchhotspotsinthefieldofmachinelearning.Intraditionalclassificationalgorithmsformachinelearning,itisusuallyassumedthatthenumberofclasssamplesinthedatasetisevenlydistributedandthecostofmisclassificationisequal.However,mostoftheactualdatahaveunbalancedcharacteristics,whichleadstothetraditionalclassificationmethodinordertoensuretheoverallclassificationaccuracyisbiasedtothemajorityclassandignorethedataoftheminorityclass.Thefinaldatacannotbeaccuratelyandeffectivelyclassified.Thissituationismoreobviousinthepoorclassificationeffectcausedbythelargerimbalanceratio.However,theseminoritytypesofsamplesoftenhaveahighmisclassificationcost,soimbalanceddatasetclassificationisthefocusofourresearch.Theresearchonimbalanceddataclassificationisdividedintothreelevels:datapreprocessinglevel,featurelevelandclassificationalgorithmlevel.Aimingatth

起重采样方法在高度不平衡数据分类中的应用研究

数据挖掘分类技术在企业人才招聘中的应用研究的中期报告

具有不平衡数据的二分类问题研究的开题报告

模糊分类算法及其在数据分析系统中的应用研究的任务书

一种基于混合模型的不平衡数据分类算法的研究的开题报告

模型空间中的时间序列分类算法及其在不平衡数据上的应用的开题报告

基于GPU加速的一体化电网高性能基础算法研究的开题报告

一年级语文及数学资料

水泥购销合同最新精编

草坪的管理技术

水泥购销合同编辑精选

泉城课文主要内容

水环境污染作文

水田输水灌溉工程经济效益分析论文

水泥购销合同精编

水泥购销合同

水泥购销合同精选

YA建设工程有限公司薪酬管理问题研究的开题报告

国土资源调查预算标准(地质调查部分)

水灾临时救助申请书

专利权刑法保护的中日比较研究的开题报告