如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第一章描述性统计我们通常所说的对数据的统计学处理实际包括两个方面的工作:一是统计描述statisticaldescription二是统计推断statisticalinference。统计描述是数据处理的必不可少的基础性工作它主要描述样本特征。描述的形式有列表描述如一览表、频数表等、图示描述如直条图、直方图、构成图等和数字描述如平均数、标准差和各种相对数指标等。正确的统计描述将为严格的统计推断奠定基础。1.1变量与数据1.变量的类型数据可按不同属性分成不同的类别统计上把反映这类属性的指标称为变量。变量的类型不同其分布的规律不同对它们作统计处理的方法也有所不同。处理数据之前按变量分清它们的类型是很重要的。1连续型变量诸如个体身高、体重、血压、脉搏和血细胞计数等变量均可经测量取得数值。限于测量精度身高、体重之类并不能取任意位小数如脉搏、血细胞计数之类测量值只能是正整数。尽管如此为便于理论研究人们将这类变量视为连续型变量continuousvariable近似地将其取值范围当作实数轴上的一个连续区间。有的书上将这类变量的观察值构成的资料称为计量资料measurementdata。2离散型变量某些属性只能定性地划分成少数几个互相排斥的类别如性别之男女职业之各种行档药物反应之阴性和阳性等。描述性别这个属性的变量取“值”范围只是男和女两个类别描述职业这个属性的变量取“值”范围只是工、农、商、学、兵等少数几个类别。这类变量称为类别变量或名义变量。例1.1性别变量X可定义为一个二值变量男性女性10X上述只能在孤立的几个数中取值的变量称离散型变量discretevariable。二值变量是最简单的离散型变量。人们时常在一批对象中清点某属性各类别出现的次数称为频数frequency。例1.2一批108名病人构成的样本中按性别划分男性63人女性45人。类似上述离散型变量的频数资料有的书上称为计数资料countdata。按前述性别变量的赋值108名病人各有一个X值0或1X的总和就是108名病人中男性的数目63人。由此可见一批样本中关于某个类别的计数相当于该样本中相应01二值变量值之和。3有序变量某些测量手段只能提供半定量结果。例如临床中常以-±等表示若干等级。另外有些属性的各个类别存在自然的等级。例如药物疗效这一属性常可分为治愈、有效、无效和恶化四个等级鲜明的级别。个体的这类属性也可用一个变量来描述但变量的取值并不反映该个体的确切定量值只反映类别的等级或秩次rank。这样的变量称为有序变量ordinalvariable。与计数资料类似实践中人们也时常清点样本中各等级出现的频数有的书上称这类频数资料为等级资料rankeddata。2.数据的结构与特点任何试验和观察的结果必须转变为数据后才能进行统计分析。医学研究中的绝大多数研究结果可用一种统一的数据结构表达如表1.1中列了100个患者的7个记录项目这种数据结构可写成一个100行7列的方阵也叫作数据矩阵SASSPSS和BMDP等统计软件都以这种形式作为数据录入的基本格式。1基本观察单位基本观察单位是按研究需要确定的采集数据的基本单位。观察对象本身可以是一个基本观察单位也可以同时具有若干个基本观察单位。以高血压临2第一篇统计学基本概念床治疗的临床试验为例如果以患者治疗四周后的收缩压和舒张压作为研究指标则每个患者是一个基本观察单位如果将患者治疗后一周、二周、四周的收缩压和舒张压作为研究指标由于采集数据的条件有了变化每个患者具有三个基本观察单位。2记录项目用于统计分析的记录项目通常由分组因素、反应变量和协变量三部分组成。如表1.1为一个100×7的数据矩阵在7个记录项目中治疗方法为分组因素收缩压、舒张压、心电图、疗效判定为反应变量年龄、性别为协变量。表1.1100名高血压患者治疗后的临床记录患者编号年龄岁性别治疗分组收缩压kPa舒张压kPa心电图疗效判定137男A药18.6711.47正常显效245女对照20.0012.53正常有效343男B药17.3310.93正常有效459女对照22.6714.67异常无效……………………10054女B药16.8011.73正常有效1.2频数表与直方图频数表frequencytable与直方图histogram不仅是最常用的综合描述样本资料的方法而且孕育出统计学中十分重要的关于概率分布的概念。1.频数表在一批样本中相同情形出现的次数就是该情形的频数。将互相排斥的情形的频数无遗漏地列在一起便是频数表。习惯上频数表分为离散型和连续型两大类。1离散型频数表对于离散型变量上述“所有互相排斥的情形”就是某属性的各种类别。由例1.3中的资料可列出两个频数表表1.2和表1.3。其中频率等于频数与合计数之商频率之和等于100累积频数与累积频率是将频数与频率依次累加的结果。表1.2108名病人