如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
人工智能从自然语言的词法、句法、语义分析的角度介绍了自然语言理解所涉及的主要方面,介绍了真实文本处理和对话分析问题,从应用角度阐述了信息检索、机器翻译和语音识别技术。7.1自然语言理解的一般问题7.1.2研究进展发展时期的几个著名系统包括1968年出现的SRI和ELIZA系统等。20世纪70年代,代表系统包括:W.Woods设计的LUNAR,T.Winograd设计的SHEDLU系统,大规模真实文本处理时期此期间特征AI和专家系统中的思想,知识的表示和处理方法,领域知识和推理机制,不再局限句法和词法研究,极大地提高了系统处理的正确性。为了处理大规模的真实文本,提出了语料库语言学:20世纪80年代,英国Leech领导的UCREL研究小组,利用已带有词类标记的语料库,经过统计分析得出了一个反映任意两个相邻标记出现频率的“概率转移矩阵”。设计的CLAWS系统依据这种统计信息,对LOB语料库的一百万词的语料进行词类的自动标注,准确率达96%。基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题。7.1.3自然语言理解的层次这一过程分为五个层次:语音分析词法分析句法分析语义分析语用分析7.2词法分析英语单词切分英语单词有词性、数、时态、派生及变形等变化,找词素复杂,需要对词尾或词头分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。从词素中获得语言学信息。如英语中构成词尾的词素“s”名词复数/动词第三人称单数,“ly”副词的后缀,“ed”动词的过去分词,算法(英语词法分析)/*它可以对那些按英语文法规则变化的英语单词进行分析*/repeatlookforwordindictionaryifnotfoundthenmodifytheworduntilwordisfoundornofurthermodificationpossible其中“word”是一个变量,初始值就是当前的单词。如,分析catches、ladiescatchesladies,词典中查不到catcheladie修改1:去掉“-s”catchladi修改2:去掉“-e”lady修改3:把“i”变成“y”在修改2的时候,可以找到“catch”在修改3的时候就可以找到“lady”。词法分析难在词义判断,单词有多种解释,仅依靠查词典无法判断。如,“diamond”解释:菱形,边长均相等的四边形;棒球场;钻石。依靠句子中其他相关单词和词组的分析。如:JohnsawSusan'sdiamondshiningfromacrosstheroom.中的“diamond”的词义必定是钻石。汉语切分困难如“不是人才学人才学”,“不是人才-学人才学”“不是人-才学人才学”7.3句法分析7.3.1短语结构文法和Chomsky文法体系产生式规则:a→b,其中a∈V﹢,b∈V﹡,a≠b,V﹡表示由V中的符号所构成的全部符号串(包括空符号串Ф)的集合,V﹢表示中除空符号串Ф之外的一切符号串的集合。在一部短语结构文法中,基本运算就是把一个符号串重写为另一符号串。如果a→b是一条产生式规则,那么就可以通过用b来置换a,重写任何一个包含子串a的符号串,这个过程记作“=>”.如u,v∈V﹢有uav=>ubv,就说uav直接产生ubv。以不同的顺序使用产生式规则,就可以从同一符号产生许多不同的串。由一部短语结构文法定义的语言L(G)就是可以从起始符S推导出符号串W的集合。即一个符号串要属于L(G)必须满足:(1)该符号串只包含终结符;(2)该符号串能根据文法G从起始符S推导出来。采用短语结构文法所定义的某种语言是由一系列产生式组成的。2.Chomsky定义的四种形式文法正则文法(有限状态文法):左线性文法右线性文法左线性文法中,规则:A→Bt或A→t其中A,B∈N,t∈T。右线性文法中,规则:A→tB或A→t上下文无关文法。规则:A→x其中A∈N,x∈V﹡。规则被应用时不依赖于符号A所处的上下文。上下文有关文法自然语言——上下文有关的语言(用1型文法)。文法规则允许其左部有多个符号(至少包括一个非终结符),以指示上下文相关性。对于产生式:aAb→ayb(A∈N,y≠Ф,a和b不能同时为Ф)在增强上下文无关语言的句法分析的基础上,实现自然语言的自动理解。ATN是基于这种思想实现的一种自然语言句法分析技术。无约束短语结构文法7.3.2句法分析树自上向下。自下向上。对应的句法分析树如图7-1所示在句法分析树中,初始符号总是