DNA分类论文.doc
上传人:sy****28 上传时间:2024-09-14 格式:DOC 页数:18 大小:468KB 金币:18 举报 版权申诉
预览加载中,请您耐心等待几秒...

DNA分类论文.doc

DNA分类论文.doc

预览

免费试读已结束,剩余 8 页请下载文档后查看

18 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

DNA序列分类一摘要重要性及意义从题目所给的已知条件和要求可以看出,本问题是一个有关DNA序列人工分类的问题。本文针对DNA序列分类这个实际问题,提出了相应的数学模型,为了更好的体现DNA序列分类的特征,本文给出了三种判别方法,即欧式距离判别法、Fisher判别法和Bayes判别法。从这三种方法得出的判别结果的正确率衡量出最优的判别方法,从而对问题二进行判别分类。对于问题一,从题目所给出的前20个序列的分类分析,先用matalb计算出标号为1-20序列中A、T、C、G的出现的概率,这样就可构造出含4个变量的特征集,从而构造出一个的概率矩阵,提取其特征。然后分别用欧式距离判别法、Fisher判别法和Bayes判别法来对DNA人工序列进行分类。在利用各个判别方法进行分类时,首先建立各个判别方法的数学模型,接着对其分析编程,利用matlab依次计算出各个判别方法对标号为1-20的DNA人工序列分类。然后在对21-40的DNA序列分类,得出这三种判别方法的分类判别的正确率。利用比较法,对这三种方法进行比较对比,从而得出欧式距离判别法、Fisher和Bayes判别法的判别效果一样。最终得出标号为21-40的DNA人工序列正确率最高的分类,即:(三种方法的结果都给出)A类:222325272934353637B类:2124262830313233383940最后在的条件下,通过F检验,判断该判别法的有效性。实际上,问题二就是对于问题一的一种推广。由问题一得出Fisher和Bayes判别法对于DNA人工序列的分类正确率比较高,所以对于问题二所给出的182个DNA人工序列,本论文选择Fisher判别法来进行分类。其判别的原理与问题一的Fisher判别法相同,都是先将DNA序列转化为相应的数学表达式,建立Fisher判别函数数学模型,然后分析编程,利用matlab得出其分类的结果:A类:3、5、6、8、9、13、14、15、16、17、18、19、20、21、25、27、31、32、33、35、36、38、39、41、42、44、45、47、49、52、53、55、58、59、60、61、62、64、67、68、69、70、71、73、77、79、82、87、89、90、91、93、97、98、99、100、101、104、105、106、109、112、113、115、117、118、120、124、132、134、136、139、141、145、147、148、149、154、155、158、171、172、176;其余的为B类。关键字(3-5个)DNA人工序列;距离判别法;Fisher判别法;Bayes判别法;提取特征.二问题重述人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:(1)请从20个已知类别的人工制造的序列(其中序列标号1—10为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)(2)同样方法对182个自然DNA序列(它们都较长)进行分类,像(1)一样地给出分类结果。三问题分析从题目所给出的DNA人工序列观察发现,很多字符串重复出现的频率很高,从题目对于对标号1-20的DNA序列的分类可以看出,有些字符在A类和B类中出现的频率有明显的差距,所以本论文将A、T、C、G在各自序列中所出现的频率作为提取的特征变量,也就是将其作为判别A类和B类的标准。为了保证分类的正确率比较高,本论文采取了距离判别法、Fisher判别法和Bayes判别法这三种方法对DNA序列进行判别分类。对于问题一,本文首先将标号为1-20的DNA序列中的A、T、C、G出现的频率转化为相应的概率矩阵。由于这