如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
统计学基本概念与EXCEL函数编辑自CSDNzxca368对于一维数据的分析,最常见的就是计算平均值(Mean)、方差(Variance)和标准差(StandardDeviation)。在做【特征工程】的时候,会出现缺失值,那么经常会用到使用平均值或者中位数等进行填充。一,平均值(Mean)1,平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;2,平均值的EXCEL函数:AVERAGE二,方差(Variance),这一概念的目的是为了表示数据集中数据点的离散程度;1,总体方差(为总体方差,为变量,为总体均值,为总体例数。)22,样本中各数据与样本平均数的差的平方和的平均数叫做样本方差S样本方差的EXCEL函数:VARPA函数3,样本方差的算术平方根叫做样本标准差。标准差(StandardDeviation,缩写SD),中文环境中又常称均方差,是离均差平方的算术平均数的平方根。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。标准差的EXCEL函数:STDEV:用途:估算样本的标准偏差。它不计算文本值和逻辑值(如TRUE和FALSE)。它反映了数据相对于平均值(mean)的离散程度。2.STDEVA:基于样本估算标准偏差。标准偏差反映数值相对于平均值(mean)的离散程度。文本值和逻辑值(如TRUE和FALSE)也将计算在内。3.STDEVP:用途:返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。简单说函数stdev的根号里面的分母是n-1,而stdevp是n,如果是抽样当然用stdev.在十个数据的标准偏差如果是总体时就用STDEVP,如果是样本是就用STDEV。至于STDEVA与STDEV差不多,只不过它可以把逻辑值当数值处理。4,协方差Covariance:每对数据点的偏差乘积的平均数,利用协方差可以决定两个数据集之间的关系。协方差的EXCEL函数:covar(第一个所含数据为整数的单元格区域,第二个所含数据为整数的单元格区域)三,标准误差(Standarderror,缩写SE),也称均方根误差(Rootmeansquarederror),标准误差是指在抽样试验(或重复的等精度测量)中,常用到样本平均数的标准差。标准差与标准误差,计算公式类似,但是是两个不同的概念。对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。设n个测量值的误差为,则这组测量值的标准误差等于:(E为误差=测定值—真实值。)standerror=standdeviation/sqrt(样本数),标准误差EXCEL函数:excel函数里没有标准误差可直接应用的函数,不过你可以用标准差除以该组数据的个数n的平方根来求。即σ/根号n,σ=stdev(array).故,若数据组为a1:a10,在要显示结果的某个单元格里输入公式:=stdev(a1:a10)/sqrt(counta(a1:a10))如图数据要计算数据与20的标准误差,则可用数组公式:{=SQRT(AVERAGE((C2:C11-20)^2))}(输入公式后同时按下Ctrl+Shift+Enter完成输入,{}是自动生成的,不是人工输入的)标准差与标准误差区别意义、作用和使用范围均不同。标准差(亦称单数标准差)一般用SD(StandardDeviation)表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误差一般用SE(Standarderror)表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误差则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)n减小的方法来减小实验误差,但样本数太大意义也不大。标准差是最常用的统计量,一般用于表示一组样本变量的分散程度;标准误差一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。标准差是针对特定的一组数据而言,看数据序列偏离均值的程度;而标准误差则是针对n组数据而言,看每次抽样的效果如何,可以理解为n组数据标准差的标准差。为什么使用标准差?与方差相比,使用标准差来表示数据点的离散程度有3个好处:1.表示离散程度的数字与样本数据点的数量级一致,更适合对