第14章 支持向量机.ppt
上传人:sy****28 上传时间:2024-09-10 格式:PPT 页数:54 大小:2.9MB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

第14章 支持向量机.ppt

第14章支持向量机.ppt

预览

免费试读已结束,剩余 44 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

14.1支持向量机基础14.1.1机器学习的基本问题14.1.2经验风险最小化问题14.1.3VC维与学习一致性理论14.1.4结构化风险最小化14.2支持向量机的基本原理14.2.1线性支持向量机14.2.2广义线性支持向量机14.2.3非线性支持向量机14.2.3.1到高维空间的影射14.2.3.2核函数14.1支持向量机基础支持向量机(supportvectormachines)是由贝尔实验室研究者Vapnik于20世纪90年代最先提出的一种新的机器学习理论,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。统计方法是从事物的外在数量上的表现去推断该事物可能的规律性,它主要考虑测试预想的假设和数据模型拟合,依赖于显式的基本概率模型。统计学习理论是针对小样本情况下的机器学习理论,它依据算法的经验风险以及算法本身的构造推测它的实际风险,获得了较好的算法泛化能力。统计学习理论将算法的训练过程看作算法向训练样本学习的过程。统计学习理论的4个部分:学习过程一致性的理论。一个基于经验风险最小化原则的学习过程满足什么条件,它的经验风险与实际风险趋向一致。学习过程收敛速度的理论。如果学习过程的经验风险与实际风险趋向一致,那么它们间的接近速度随着训练样本数的增加是如何变化的。哪些因素控制着它们接近的速度。控制学习过程泛化能力的理论。采用前两部分的结论改进学习过程。构造学习算法的理论。采用前三部分的结论,在分类和拟合问题中构造现实的学习算法。14.1.1机器学习的基本问题统计学习理论领域里把学习问题看作是利用有限数量的观测来寻找待求的依赖关系的问题。而基于数据的机器学习问题,则是根据已知样本估计数据之间的依赖关系,从而对未知或无法测量的数据进行预测和判断。样本学习的一般模型机器学习的目标可以形式化的表示为:根据n个独立同分布的观测样本,在一组函数中求出一个最优函数,使其对未知样本进行估计时,最小化期望风险泛函。其中联合概率分布是未知的,是用对y进行预测时造成的损失,称为损失函数。简单地说,学习的目标就是求一映射函数,使之与实际系统映射的差异最小。14.1.2经验风险最小化问题学习机器产生的映射函数与实际系统的映射之间的差异可以用单个样本点上的损失函数来描述。损失函数在总体样本集上的数学期望,即为期望风险的泛函:underfitting14.1.3VC维与学习一致性理论对于二值分类问题,其目标函数f只有0和1两种取值,称这类函数为指示函数。对于一个指示函数集的VC维是指能够被“打散”(即,被里的函数按照所有可能的形式分开)的样本集合可能具有的最大样本数(或称作样本集合的最大基数),记作。一般而言,VC维代表了机器的学习能力,其值越大表明其学习机器的学习能力越强,但学习机器就越复杂。然而,目前还没有通用的关于计算任意函数集的VC维的理论,只有对一些特殊函数集的VC维可以准确知道。对于指示函数集和概率分布函数,如果下列两序列概率地收敛到同一极限,则称为经验风险最小一致性。在VC维和学习一致理论基础上,Vapnik等人证明了对二值分类问题,指示函数集中所有的函数,经验风险和实际风险之间至少以概率满足如下关系:14.1.4结构化风险最小化通常,在小样本的情况下,对于复杂的学习机器,其训练误差过小,但反而造成了置信范围的增大,从而导致泛化性能下降。这往往是由于学习机器的结构不合理造成的。因此,ERM原则在样本有限时是不合理的。为此,统计学习理论提出了一种新的策略,在保证ERM原则的基础上,降低学习机器的VC维,能够使得期望风险在整个总体集上得到控制,即在训练误差和置信范围二者之间寻求一个折衷。这种思想就是结构风险最小化(StructuralRiskMinimization,SRM)原则。图14-4结构风险最小化原则14.2支持向量机的基本原理14.2.1线性支持向量机一个二值分类问题:设线性可分样本集(x1,y1),(x2,y2),…,(xm,ym),x∈Rn,y∈{+1,-1}是类别标号,X为具有个属性的向量。要求在上找,得到决策函数,这就是分类学习机器。在2维线性空间中线性判别函数的一般形式为:。其中,最优分类线L的方程的规范化形式为:其几何表示如下图:L1进一步推广到n>2时,则同样存在超平面,其中x∈Rn,w,b∈Rn。使得样本集中的任意二元组(xi,yi),满足:当时