如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
13:35:22“物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类(fēnlèi),以揭示其中相同和不相同的特征。在心理学研究中,经常遇到的分类(fēnlèi)包括两种情况:一是对研究样本或个案的分类(fēnlèi),即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类,将那些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类(fēnlèi),即将一系列的观测量归类合并为性质明显不同的少数几个方面。“在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同(bùtónɡ)的特征对生物进行分类。在经济研究中,为了研究不同(bùtónɡ)地区城镇居民生活中的收入和消费情况,往往需要划分不同(bùtónɡ)的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同(bùtónɡ)的矿石类。在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过(tōngguò)聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。7813:35:2213:35:2211121314151617181920212223244.距离(jùlí)选择的原则一般说来,同一批数据采用不同的距离(jùlí)公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离(jùlí)公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离(jùlí)公式的选择。通常选择距离(jùlí)公式应注意遵循以下的基本原则:(1)要考虑所选择的距离(jùlí)公式在实际应用中有明确的意义。如欧氏距离(jùlí)就有非常明确的空间距离(jùlí)概念。马氏距离(jùlí)有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经(yǐjing)对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。27采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。快速聚类法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:1.将所有的样品分成K个初始类;2.通过(tōngguò)欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;3.重复步骤2,直到所有的样品都不能再分配时为止。【例5.3】假定我们对A、B、C、D四个样品分别测量两个变量(biànliàng)和得到结果见表5.9。试将以上的样品聚成两类。第一步:按要求取K=2,为了实施均值法聚类,我们(wǒmen)将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,见表5.10所示。第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标(zuòbiāo),为下一步聚类做准备。先计算A到两个类的平方距离:由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离:由于(yóuyú)B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如表5.11所示。第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得结果见表5.12。到现在为止,每个样品都已经分配给距离中心最近的类,因此(yīncǐ)聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。343536373839404142434445464713:35:2213:35:2213:35:2213:35:2213:35:2213:35:2213:35:2213:35:2213:35:2213:35:221