语音信号处理课件第九章.ppt
上传人:天马****23 上传时间:2024-09-14 格式:PPT 页数:51 大小:4.2MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

语音信号处理课件第九章.ppt

语音信号处理课件第九章.ppt

预览

免费试读已结束,剩余 41 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

9.1概述在语音合成技术发展中,早期研究主要是采用参数合成方法。1990年提出的基音同步叠加PSOLA方法,使基于时域波形拼接方法合成的语音音色和自然度大大提高。我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。9.2语音合成的原理及分类另一种波形合成法是波形编辑合成,它把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音基元,合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。9.2.2参数合成法参数合成方法的优点:音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这类合成器比特率低,音质适中。缺点:算法复杂,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。为了改善音质,近几年发展了混合编码技术,以改善激励信号的质量。9.2.3规则合成法9.2.3规则合成法项目9.3共振峰合成法9.3共振峰合成法9.3.1级联型共振峰模型9.3.2并联型共振峰模型上式可分解成以下部分分式之和:其中Al为各路的增益因子。下图就是一个M=5的并联型共振峰模型。9.3.3混合型共振峰模型混和型共振峰模型如下图所示:对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。共振峰合成技术弱点:(1)由于它是建立在对声道的模拟上,因此,声道模型的不精确势必会影响其合成质量。(2)实际工作中共振峰模型并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。(3)共振峰合成器控制十分复杂,实现起来十分困难。9.4线性预测参数合成法线性预测合成的形式有两种:一种是直接用预测器系数构成的递归型合成滤波器,用这种方法定期地改变激励参数u(n)和预测系数,就能合成出语音。它合成的语音样本由下式决定:其中:ai为预测系数;G为模型增益;u(n)为激励;合成样本为s(n);p为预测器阶数。图9.6直接用预测器系数ai构成的合成滤波器另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定:LPC语音合成和共振峰语音合成比较:(1)LPC语音合成有比较简单和完全自动的分析步骤,合成器结构也比较简单,采用格形滤波器时,量化特性和稳定性都比较好,硬件实现容易;而共振峰合成需要较多的参数调整,合成器结构相对讲要复杂些。(2)共振峰合成原理和实际发声原理联系紧密,它的模型控制参数对合成语音谱特性的影响比较直观。LPC合成中,控制LPC系数的变化轨迹十分有限。(3)共振峰语音合成比较灵活,允许简单地变换以模仿不同人的发音,通过共振峰频率的移动,容易改变语声中和讲话人特征有关的部分;LPC合成较困难,只有将LPC的反射系数转变成极点的位置,才有可能作类似的修正。(4)线性预测方法对谱包络谷点的模型要比峰点差得多,因此共振峰带宽的估计一般是不合适的;共振峰合成方法中,共振峰的带宽还可以从离散傅里叶变换谱来估计。(5)标准LPC的全极点模型,对具有零点谱特性的那些音,特别是鼻音,效果比较差;共振峰合成方法则可以采用反谐振器来直接模拟鼻音中最重要的频谱零点,使得合成语音音质得以提高。(6)从总体上说,选择LPC语音合成还是共振峰合成,基于二个因素的折衷;LPC合成具有简单,可自动进行系数分析的优点;而比较复杂的共振峰合成可望产生较高质量的合成语音。9.5基音同步叠加法由于韵律修改所针对的侧面不同,PSOLA算法的实现目前有3种方式。分别为:时域基音同步叠加TD-PSOLA线性预测基音同步叠加LPC-PSOLA频域基音同步叠加FD-PSOLA其中TD-PSOLA算法计算效率较高,已被广泛应用,是一种经典算法,这里只介绍TD-PSOLA算法原理。9.5.1基音同步叠加PSOLA算法原理信号x(n)的短时傅里叶变换为:其中w(n)是长度为N的窗序列,Z表示全体整数集合。是变量n和ω的二维时频函数,对于n的每个取值都对应有一个连续的频谱函数,显然存在较大的信息冗余,所以可以在时域每隔若干个(例如R个)样本取一个频谱函数来重构原信号x(n)。令:其傅里叶逆变换为:然后将叠接相加便可得到:通常选w(n)是对称的窗函数,所以有w(rR-n)=w(n-rR)可以证明,对于汉明窗来说,当时,无论m为何值都有:所以其中为w(n)的傅里叶变换。上