数学建模缺失数据补充及异常数据修正-异常数据补充算法.doc
上传人:王子****青蛙 上传时间:2024-09-14 格式:DOC 页数:14 大小:305KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数学建模缺失数据补充及异常数据修正-异常数据补充算法.doc

数学建模缺失数据补充及异常数据修正-异常数据补充算法.doc

预览

免费试读已结束,剩余 4 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

题目:数据得预处理问题摘要数据处理贯穿于社会生产与社会生活得各个领域.数据处理技术得发展及其应用得广度与深度,极大地影响着人类社会发展得进程.数据补充,异常数据得鉴别及修正,在各个领域也起到了重要作用。对于第一问,我们采用了多元线性回归得方法对缺失数据进行补充,我们将1960—2015、xls(见附表一)中得数据导入matlab。首先作出散点图,设定y(X59287)与x1(X54511)、x2(X57494)得关系为二元线性回归模型,即y=b0+b1x1+b2x2。之后作多元回归,求出系数b0=18、014,b1=0、051,b2=0、354,所以多元线性回归多项式为:Y=18、014+0、051*x1+0、354*x2.再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。若x1=30、4,x2=28、6时,y得数据缺失,则将x1,x2带入回归多项式,算出缺失值y=29、6888。类似地,若x1=40、6,x2=30、4时,y得数据缺失,则将x1,x2带入回归多项式,算出缺失值y=30、8462,即可补充缺失数据。对于第二问,我们使用了异常值检验中标准差未知得t检验法。将除可疑测定值以外得其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值与标准差s,而将可疑值当做一个样本容量为1得特殊总体。如果与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:,假设可由标准差s替代来进行检验,则检测统计量可视为:。若统计量值大于相应置信度下得t检验法得临界值(该临界值通过查表法得出),则将判为异常值。由此算法即可鉴别出相应得异常数据。对于第三问,对于问题三,我们采用了分段线性插值,最近方法插值,三次样条函数插值以及三次多项式方法插值法来修正数据异常。同时也需利用外插法修正最后一个数据得异常。通过各种插值方法得比较,发现三次样条方法较为准确,并较好得对异常数据进行修正。关键词:多元线性回归,t检验法,分段线性插值,最近方法插值,三次样条插值,三次多项式插值C38姓名学号专业队长康伟振20141387032应数长望队员一卜维新20141346033网络工程队员二李兰馨20141302059应用气象问题重述1、1背景在数学建模过程中总会遇到大数据问题。一般而言,在提供得数据中,不可避免会出现较多得检测异常值,怎样判断与处理这些异常值,对于提高检测结果得准确性意义重大。1、2需要解决得问题(1)给出缺失数据得补充算法;(2)给出异常数据得鉴别算法;(3)给出异常数据得修正算法。模型分析2、1问题(1)得分析属性值数据缺失经常发生甚至不可避免。较为简单得数据缺失平均值填充如果空值为数值型得,就根据该属性在其她所有对象取值得平均值来填充缺失得属性值;如果空值为非数值型得,则根据众数原理,用该属性在其她所有对象得取值次数最多得值(出现频率最高得值)来补齐缺失得属性值。ﻩ(2)热卡填充(就近补齐)对于包含空值得数据集,热卡填充法在完整数据中找到一个与其最相似得数据,用此相似对象得值进行填充。ﻩ(3)删除元组ﻩﻩ将存在遗漏信息属性值得元组删除。(二)较为复杂得数据缺失(1)多元线性回归ﻩﻩ当有缺失得一组数据存在多个自变量时,可以考虑使用多元线性回归模型。将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到得回归系数就能反映对应自变量得重要程度.2、2问题(2)得分析属性值异常数据鉴别很重要。我们可以采用异常值t检验得方法比较前后两组数据得平均值,与临界值相比较即可辨别数据异常并剔除异常数据。将除可疑测定值以外得其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值与标准差s,而将可疑值当做一个样本容量为1得特殊总体。如果与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:,假设可由标准差s替代来进行检验,则检测统计量可视为:。若统计量值大于相应置信度下得t检验法得临界值(该临界值通过查表法得出),则将判为异常值.2、3问题(3)得分析对于数据修正,我们采用各种插值算法进行修正,这就是一种行之有效得方法。(1)分段线性插值将每两个相邻得节点用直线连起来,如此形成得一条折线就就是分段线性插值函数,记作,它满足,且在每个小区间上就是线性函数。可以表示为有良好得收敛性,即对于有,用计算x点得插值时,只用到x左右得两个节点,计算量与节点个数n无关.但n越大,分段越多,插值误差越小。实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用得特殊函数表,数理统计中用得概率分布表等。(2)三次多项式算法插值当用已知得n+1个数据点求出插值多项式后