研究生统计学讲义定量资料的统计描述学习教案.ppt
上传人:王子****青蛙 上传时间:2024-09-12 格式:PPT 页数:44 大小:2.2MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

研究生统计学讲义定量资料的统计描述学习教案.ppt

研究生统计学讲义定量资料的统计描述学习教案.ppt

预览

免费试读已结束,剩余 34 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学幸运的是,这个曲线族能够(nénggòu)转换为标准正态曲线(standardnormalcurve),其平均值为0,标准差为1.曲线下的面积已经被制成表格,通常称为u表(utables),u表能用来确定任何正态分布的CDF值.(累积分布函数值即P224附表3)标准正态变量的分布(fēnbù)函数记为Ф(u):补例1设智商测验得分是具有均数100,标准差为10的正态分布.(一些新颖(xīnyǐng)的智商测验声称具有这些参数).问:现在我们把X转换为标准(biāozhǔn)正态变量,因为μ=100,σ=10,所以2.得分在90到115分之间的概率(gàilǜ)是多少?解:要求(yāoqiú)P(X≥125),见下图.补例2假设(jiǎshè)女高血压患者舒张压大约集中在100mmHg,标准差是16mmHg,血压是正态分布.求:解3:求P(96<X<104),两者同时(tóngshí)进行转换这意味着这些(zhèxiē)女高血压患者舒张压低于126.32mmHg大约有95%.例3.2若已知健康女大学生血清(xuèqīng)总蛋白含量服从正态分布,均数μ=73.8g/L,标准差σ=3.9g/L,试估计168名健康女大学生血清(xuèqīng)总蛋白含量在72.0~78.6g/L范围内的人数。3.u值在-0.46~1.23范围(fànwéi)内的面积为Ф(1.23)-Ф(-0.46)=0.8907-0.3228=0.5679,即血清蛋白含量在72.0g/L~78.6g/L范围(fànwéi)内的概率为56.79%。4.统计推断和计算公式的推导中经常(jīngcháng)应用到的正态变量性质二、频数(pínshù)分布表和频数(pínshù)分布图(P29)用途:1.揭示资料的分布(fēnbù)特征和分布(fēnbù)类型。总体平均数:例如(lìrú)一个小的理论总体,其全体取值为:1,6,4,5,6,3,8,7,可以表示为:公式1.2作为样本(yàngběn)平均数的代数缩写式就是:要使每一个样本均数是μ的无偏估计.取决于样本所含的值以及样本容量的实际大小.我们期望全部可能平均值的平均值与总体参数(cānshù)μ相等.事实上,这个定义就是总体均数的一个无偏估计.例3.410例由伤寒杆菌引起伤寒的患者潜伏期为6,8,11,12,14,15,16,21,29,34天,求中位数。因n=10,为偶数,居中(jūzhōng)的两个位次为10/2=5,1+10/2=6,这两个位次上的观察值为14和15,(14+15)/2=14.5(天),即为所求的中位数。2.在假设检验(jiǎnyàn)中用作拒绝或接受检验(jiǎnyàn)假设的临界值。考虑例3.6,平均数为=16.6,而中位数=14.5cm.假如说X7被错误地记为160而不是(bùshi)16的话,平均数会变成30cm,而中位数仍然保持=14.5cm.极差(range)方差(fānꞬchà)(variance)回到例,样本1的方差(fānꞬchà)是0.641kg2,样本2的方差(fānꞬchà)是49.851kg2,这反映出在样本2里有较大的分散(spread)度.公式利用(lìyòng)样本平方和的计算公式计算样本方差的公式是再考虑金枪鱼的例,样本1:s1=0.80kg,样本2:s2=7.06kg,清楚(qīngchu)反映了第2个样本比第1个样本变异较大1).双侧(1-α)容许区间按标准(biāozhǔn)正态变量值的分布规律P(-uα/2<u<uα/2)=1-α有2.医学(yīxué)参考值范围因血清总蛋白(dànbái)含量不宜过高或过低,本例宜用双侧公式:第七节离群(líqún)值的取舍1.计量资料判断离群值计量资料判断极端值是否离群值,常用±3s法、格拉布斯法、Q检验法、间距法。⑴.X±3s法X±3s法适用于正态分布资料,且样本含量较大(n≥60)。以xj代表极端值,按正态分布理论,离群值与平均值差的绝对值大于2的概率为1/20,大于3的概率仅约为1/370。按小概率原理,小概率事件在一次测量中实际是不可能发生的,2与3可认为(rènwéi)统计上允许的合理误差范围,而超出此范围的数据则为极端值。因此,有人将3作为界值,根据绝对值是否大于3作出判断。也就是说,可以根据X-3s~X+3s范围内是否包括xj作出判断:当xj在X-3s~X+3s范围之外时可舍弃,在此范围之内时保留。⑵.格鲁布斯法格拉布斯法(Grubbs)适用于正态分布资料。xj表示(biǎoshì)极端值,计算包括极端值xj在内的测量值与s,总体均数μ及标准差σ已知或未知时计算统计量T的绝对值公式分别为Q检验法不要求资料服从正态分布。数据从小到大排列为x1,x2,x3,…,xn-1,xn。极差R=x