基于支持向量机的声纹识别1.doc
上传人:sy****28 上传时间:2024-09-10 格式:DOC 页数:6 大小:120KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

基于支持向量机的声纹识别1.doc

基于支持向量机的声纹识别1.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于支持向量机的声纹识别摘要:声纹识别这种技术的实现使人类向人机自由交流迈进了一大步。支持向量机是一种基于统计的新型机器学习方法,也是模式识别中常用的一种分类方法。本文采用MFCC对语音信号进行特征提取,测试音通过SVM识别算法与训练的说话人语音模板进行匹配。关键词:支持向量机、声纹识别、核函数、最优分离超平面1前言基于声纹识别具有声纹识别有不会遗失、无须记忆和使用方便等优点,使其有着广阔的市场与应用前景。通过这种技术,可以利用人本身的生物特征进行身份鉴别。声纹识别就是根据集成在语音波上的个人信息,自动判别说话的人是谁。简单来说,声纹识别过程就是:特征提取阶段的语音特征获取过程,训练阶段的用户语音模板或模型建立过程和识别阶段的模式匹配与判决过程。声纹识别主要采用线性预测倒谱系数(LPCC)、美尔倒谱系数(MFCC)的声纹特征,识别模型采用向量量化模型(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机模型(SVM)等。GMM和HMM适合处理连续信号,而SVM适合于分类问题。GMM和HMM受极大似然准则的限制,类别区分能力较弱,其结果反映了同类样本的相似度,而SVM的输出结果则体现了异类样本间的差异,具有很强的分类能力。与神经网络相比SVM能较好地解决网络结构的问题、过学习与欠学习问题、局部极小点问题等,而在解决非线性、小样本、算法复杂、高维数等识别问题中也有明显的特定优势。以此现在采用有效的机器学习方法改造识别模型以及修正声纹特征被认为是提升声纹识别性能的关键途径之一。2支持向量机2.1SVM是从线性可分情况下的最优分类面发展而来的,所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大.推广到高维空间,最优分类线就变为最优分类面。设D维空间中的线性判别函数:Linearclassifier:,i=1,…,l分类面方程:H1:;H2:Themarginis:。这样分类间隔就等于,因此要求分类间隔最大,就要求最大.而要求分类面对所有样本正确分类,就是要求满足则称训练集是线性可分的。要使最大,可建立Lagrange函数:得到:Maximizing:,Theformofthefinalsolution:Totalnumberofsamplestobegenerated=100Linearlyseparabledata:2.2非线性可分Slackvariablescanbeaddedtoallowmisclassificationofdifficultornoisyexamples,whenthedatapointsarenotlinearlyseparable.Minimizing:得到:Subjectto:,折衷考虑最少错分样本和最大分类间隔,就得到广义最优分类面,其中,C>0是一个常数,它控制对错分样本惩罚的程度。Lagrange乘子需要C的限制。线性可分的情况相当于C→∞,松弛变量和相关的Lagrange乘子都是间接参与问题,他们的存在通过C间接的反映出来。下图显示了C=1,100,10000时SVM的分类情况,SVM的关键在于核函数。支持向量机可以找到一个非线性映射,把输入空间中的线性不可分数据集映射到高维特征空间中的线性可分数据集中。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。在SVM理论中,采用不同的核函数将导致不同的SVM算法。常用的核有以下几种:(1)Linearkernel:K(x,xi)=xi·x(2)Polynomialkernel:K(x,xi)=(s(xi·x)+c)d,d=1,2,…,N其中s,c,d为参数,显然,线性核函数可以看作多项式核函数的一种特殊情况。(3)RBFkernel:K(x,xi)=exp(-‖x-xi‖2/22)(4)Sigmoidkernel:K(x,xi)=tanh(xi·x+b)支持向量机可以选用满足一定条件的核函数,把在输入空间中线性不可分问题映射到一个特征空间的线性可分问题,即确定最优分离超平面。Totalnumberofsamplestobegenerated=50Non-separatedatapolynomialkernel:RBFkernel:Sigmoidkernel:3声纹识别声纹识别主要目的是说话人辨认,由一个未知的说话人与一个已知的说话人数据库进行语音信号比较,从而可以从已经由许多的说话人训练的系统中辨认出发言者。说话人辨认是一个拒绝或接受说话人身份的过程。声纹识别系统