第4章-数据预处理和描述性分析(含SPSS)(ppt文档).ppt
上传人:曦晨****22 上传时间:2024-09-11 格式:PPT 页数:51 大小:3.2MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

第4章-数据预处理和描述性分析(含SPSS)(ppt文档).ppt

第4章-数据预处理和描述性分析(含SPSS)(ppt文档).ppt

预览

免费试读已结束,剩余 41 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第四章数据预处理和描述性分析本章内容第一节异常值和缺失值的处理1、探究分析的作用(1)考察数据的奇异性。过大或过小的数据均有可能是异常值、影响点或是错误输入的数据。对于这样的数据第一要找出,第二要分析原因,第三要决定是否对这些数据进行处理。(2)检查数据分布特征。许多分析方法对数据的分布有一定要求,例如要求样本来自正态分布总体,从实验或实际测量得到的数据是否符合正态分布的规律,决定了它们是否可以选用只对正态分布数据适用的分析方法。(3)考查方差齐性。另外对若干组数据均值差异性的分析需要根据其方差是否相等,选择进行检验的计算公式。2、探索分析提供的考查方法(1)箱图:是对任何分布的数据的整体描述。其中:①矩阵框是箱图的主体,上中下三条线分别表示变量的第75、50、25百分位数。②中间的纵向直线称触须线,上截止截线是变量值本体最大值,下截止截线是变量值本体最小值。除异常值和极值以外的变量值成为本体值。③异常值所使用的标记为“0”。④极值所使用标记为“*”。(2)茎叶图:能直观地描述数据的频数分布。茎叶图自左至右分为三大部分:频数、茎、叶。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽,即茎叶所表示实际数据的近似值。(3)正态性检验:除偏度、峰度统计量外,SPSS还提供以下两种方法进行正态性检验:①常用的观测量数据的正态分布检验的方法是Q-Q图,后面的章节会加以介绍。②Lillifors统计量检验法可以在方差与均值未知的情况下直接使用,它是对Kolmogorov-Smirnov统计量的修正。(4)方差齐性检验在进行均值多组间比较时,要求各组的方差相同,所以要进行方差齐性检验,例如常用的方差分析就要求分组样本的数据来自方差相同的正态总体。另外,在进行独立样本T检验之前也要事先进行方差齐性检验。具体内容请见第六章。3、探索分析过程在SPSS中的实现(1)建立或打开了数据文件后,按从“Analyze”→“DescriptiveStatistics”→“Explore”,进入Explore对话框。见图4-1所示。(2)从源变量中,选择若干个数值型变量作为因变量送入Dependent框中。(3)指定分组变量。在源变量框中选择一个或多个分组变量进入Factor框中。(4)选择标识变量。在源变量表中指定一个变量作为观测量的标识变量,送入LabelCasesby框中。(5)Display栏,确定输出项。其中:Both选项表示输出图形以及描述统计量,Statistics选项表示只输出描述统计量。Plots选项表示只输出图形。(6)单击Statistics按钮,打开如图4-2所示的对话框,选择描述统计量。其中:①Descriptive复选项,要求输出基本描述统计量,包括平均数、中位数、众数、5%的调整平均值、标准误、方差、标准差、最大值、最小值、范围、等距四分位数、峰度与偏度、峰度与偏度的标准误。在Confidenceintervalsformean框中设置均值的置信区间。②M-estimators复选项,要求输入集中趋势最大似然比的稳健估计。③Outliers复选项,要求输出5个最大值与最小值,在输出窗口中它们被标明为极端值。④Percentiles复选项,要求输出第5、10、25、50、75、90以及95百分位数。(7)展开Plots对话框,见图4-3所示,选择统计图形及其参数。①Boxplots单选项组:确定箱式图的绘制方式,可以是按组别分组绘制(Factorlevelstogether),也可以不分组一起绘制(Depentendstogether),或者不绘制(None)。②Descriptive复选项组:可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。③Normalityplotswithtest选项:绘制正态分布图并进行变量是否符合正态分布的检验。④Spreadvs.LevelwithLeveneTest单选项组:当选择了分组变量时,对所有的散布/层次图来说,同时输出回归直线斜率以及方差齐性的Levene’s检验结果。如果选择了Transformed转换选项,将依据转换后的数据计算。(8)单击Options按钮,弹出如图4-4所示的对话框图4-4中:①Excludecaseslistwise表示分析过程中,剔除带有缺失值的观测量;②Excludecasespairwise表示分析过程中,成对剔除有缺失值的观测量;③Reportvalues表示分组变量中的缺失值将被单独分为一组。输出频数表时也包括缺失组。(二)异常值的处理1、删除法。如果样本充分大,删除异常值后对整个结论没有影响,这种方法不失为一种简单可行的方法。但如果样本数