数据筛选讨论.doc
上传人:sy****28 上传时间:2024-09-11 格式:DOC 页数:8 大小:247KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据筛选讨论.doc

数据筛选讨论.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据筛选与方法一、劣质数据的处理有关数据筛选的问题,现在还存在很多问题,一方面是有效数据,另一方面是劣质数据。对此现有以下观点:健全统计法律制度和完善统计工作程序上的研究,这对于提高统计数据质量是十分重要的。但在很多时候,系统误差所带来的劣质数据是不可避免的,在这种情况下,更应该考虑如何找出这些劣质数据并加以剔除,以提高整体统计数据的质量。所谓劣质数据可以认为就是在所获统计数据中偏离总体期望过远的观测数据。对得到的大量观测值不进行必要的筛选就直接分析其规律性,其危害不仅仅体现在处理大量复杂的数据所带来的一般性问题。更严重的后果是,由于那些劣质数据所导致的对样本分析的偏差,从而影响对总体分布的判断。一)、具体解决方法如下:对原始资料偏误的监控技术的研究中,将样本观测值随机分成若干组,然后分析各组间的显著性差异情况,以判定样本中是否有劣质数据。关于统计数据中异常值的检验方法的研究中,通过分析样本观测值的次序统计量的跳跃度,来寻找样本中的劣质数据,但是这种方法不适合在大样本下使用。杨清H1关于抽样调查中系统误差问题的分析中,表明了误差的难以避免性,并主要研究了如何从改进抽样方案和设计好的统计量这两方面避免误差的影响。关于将剔除中位数偏差数据法用于招投评标的研究,给出了一个简单可行的进行数据筛选的方法,但并没有说明其具体数据筛选标准的选取的方法。根据正态分布的原则,即尽管正态变量的取值范围是(一∞,+∞),但它的99.73%的值落在内。所以可以尝试以为标准来筛选数据,即对于样本观测值,认为一切在范围之外的数据均为劣质数据,并加以剔除。但这一标准也有缺陷。利用matlab生成大量服从正态分布的随机数来模拟样本观测值,再在不同的数据筛选标准下,检验经过数据筛选后的模拟样本观测值的正态性,以比较各数据筛选标准的优劣。二)、据筛选标准及模拟分析:过对实验样本观测值的分析筛选,可以剔除样本中的劣质数据,从而能够更好地反映总体的规律。因此,如何确定数据筛选的标准是一个非常重要的研究课题。如果剔除的劣质数据太少,就无法排除劣质数据对样本的影响,最后依然可能会影响对总体规律的认识;但是如果剔除的劣质数据太多,却很可能无法保留样本的大部分有用信息,势必将对总体的进一步分析造成影响。为了确定数据筛选的标准,采用如下的方法。首先利用maflab的normrnd函数生成100000个服从标准正态分布的随机数,对于其他参数的正态分布,只要做个标准变换就可以转换为标准正态分布。然后再用matlab的jbtest函数对这一组随机数做单样本正态分布Jarque-Bera检验,并记录下其结果。然后再以埘为数据筛选标准对这100000个数进行筛选,即认为一切在范围之外的数据均为劣质数据,并加以剔除。再对筛选后的这组数据用同样的方法进行正态分布检验,并记录下其结果。将上述过程重复操作100次,令为进行数据筛选前其检验结果接受正态分布假设的个数,为进行数据筛选后其检验结果接受正态分布假设的个数,为数据筛选过程中平均剔除的数据个数。对n进行不同的取值,就可以得到不同数据筛选标准下的实验结果。直观上可以很显然地知道,值应尽可能地高,即保证对样本分析能够尽可能反映总体的规律,而值应尽可能地小,即保留下尽可能多的有用数据。为了具体评判数据筛选标准的n值,我们定义如下的函数。M值越大,则表明其对应的数据筛选标准的rt值越好。公式中之所以对h:加以平方处理,是考虑到产生如与^。的数据基数分别为100和100000,其数量级相差较大。而由于h。的产生与数据筛选标准的n值无关,故只对其做定性的分析。在实际情况下,通常是不知道总体分布的参数和的,尝试用模拟样本观测值的均值m和样本方差s代替p和矿,因为m和s分别是p和盯的无偏估计,所以这样的尝试应该是合理的,用和上面同样的方法,我们得到结果三)、应用实例用这种方法实际分析一组数据-----2008年01月份全国县以上农村最低生活保障累计支出(万元),数据来自中国国家统计局的官方网站。总计有2865个农村数据,经过对数变换后,通过图表分析,变换后的数据基本服从正态分布。现利用数据筛选标准n=3.5来筛选数据,并比较筛选前后的差别,得到结果如表3和图1。通过上诉的描述性统计分析和正态性Q—Q图检验∞o可以发现,筛选后数据的偏度和峰度系数更接近0,而Q—Q图的分布更趋于直线,也就是说筛选后的数据的正态性略好于筛选前的数据的正态性,所以更接受经过数据筛选后的数据的相关统计量。而且此样本的数据量较小,所以数据筛选前后变化不大,通过之前的模拟实验分析的结果,有理由相信,在大样本情况下,数据筛选前后的差别将会很大。图1:农村最低生活保障累计支出统计规律Q—Q图这种方法是一种很有用的筛选方法,在