如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
双页码计算机应用研究2006年RVM核参数的遗传算法优化方法李刚1,2,邢书宝1,薛惠锋1(1.西北工业大学自动化学院,陕西西安710072,2.西安工业大学经管学院,陕西西安710032)摘要:RVM(关联向量机)是一种建立在SVM(支持向量机)之上的统计学习方法,利用核函数将回归线性化,求得稀疏解,避免过拟合,核函数的参数严重影响RVM的综合性能。遗传算法是一类随机优化算法,经过迭代进化,高效率地求得问题的最优解。本文在定义RVM回归性能综合评判标准Fitness的基础上,利用遗传算法获取最优核函数参数,实验证明此法的可行。关键词:关联向量机;核函数参数;综合评判标准;遗传算法中图分类号:TP391文献标识码:A1引言统计学习论(StatisticalLearningTheory或SLT)是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。模式分析(patternanalysis)研究的是如何自动检测和辨识数据中潜在的关系,人们通常把这种方法称为“统计模式识别”[1]。随着人们的注意力从线性关系转移到非线性关系,20世纪80年代模式分析领域经历了一场“非线性革命”,几乎同时引入了后向传播多层神经网络算法和高效的决策树学习算法[2]。但是这些非线性算法建立在梯度下降和贪心启发式法的基础上,受到局部最小化的限制。由于没有很好地理解它们在统计上的行为,这些方法经常遇到过拟合的问题。20世纪90年代出现了SVM(支持向量机)[3]等被称为基于核(kernel-based)学习方法的模式分析方法,该方法利用核函数高效线性地分析非线性关系,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的泛化能力(GeneralizationAbility)。RVM(关联向量机)是MichaelE.Tipping于2001年提出的一种建立在支持向量机(SVM)之上的稀疏贝叶斯统计学习方法[4],它的训练是在贝叶斯框架下进行的,可以用它进行回归及分类模式分析。RVM克服SVM缺点:RVM的关联向量数要少于SVM,具有更优的泛化性能;可以得到点估计及区间估计;无需多次试验找到最优的类似于C或ε的主观设置值。与SVM类似的是RVM也使用核方法,将自变量映射到高维空间,得到因变量与自变量线性回归的稀疏解,但核函数参数严重影响RVM的性能,如何方便快捷地找到综合性能最优的核函数参数目前尚无解析解理论指导,由于RVM的分类功能建立在回归的基础之上,本文尝试使用遗传算法获取回归综合性能最优的核参数数值解。2RVM模型RVM的模型建立在贝叶斯框架下[5]:设是训练中的特征值(feature),是目标值,RVM认为服从以为均值的正态分布:式(1)中:为核函数;为模型的权值。为保证获取稀疏解,令满足0均值正态分布:.训练样本集的似然函数为:式中:;;为矩阵,其行包含所有核函数对输入的响应。根据先验概率分布和似然分布,再用贝叶斯式计算权值的后验概率分布,即:而该权值的后验分布属于多变量高斯分布,即:式中:为协方差,其中的是的对角矩阵;为均值。训练目标值的似然分布通过对权值变量进行积分,即:实现边缘化,从而求得超参数的边缘似然分布:,其中的协方差。RVM方法中的模型权值的估计值由后验分布的均值给出,同时它也是权值的最大后验(MAP)估计。权值的MAP估计取决于超参数和噪声方差,其估计值和可以通过最大化边缘似然分布得到。后验分布反映出的权值最优值的不确定性,可以表示模型预测的不确定性。若给定输入值,相应输出的概率分布为:服从高斯分布的形式,即:其中的预测均值和方差(不确定性)分别为:3RVM回归性能与核函数参数本文在Tipping的第二类极大似然法(type-IImaximumlikelihood)求解关联向量的基础上展开研究。给定一个核和一个训练集合,我们就能构成一个核矩阵K(xi,xj),这个矩阵起着信息瓶颈的作用,因为它提供核算法所需所有信息,担当着数据输入和学习模块之间的界面,如图1所示。图1核矩阵数据界面核函数隐含着数据的相似性衡量尺度,核函数参数起着“放大”与“缩小”的作用,严重影响RVM的回归性能,以Sinc数据为例,说明核函数参数对RVM泛化性能的影响:Sinc数据为:t=noise+sin(x)/x,x∈[-10,10],noise为1/10水平的标准正态噪声。分别均匀获取100个样本点作为训练集,测试集。选用Gauss核函数(σ为其参数):表1及图2中,RV-关联向量数,