如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
SupportVectorMachine支持向量机提纲SVM的描述传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。推广能力是指:将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。“过学习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。例如:对一组训练样本(x,y),x分布在实数范围内,y取值在[0,1]之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0统计学习理论是小样本统计估计和预测学习的最佳理论。模式识别问题的一般描述期望风险R(w)要依赖联合概率F(x,y)的信息,实际问题中无法计算。一般用经验风险Remp(w)代替期望风险R(w)一般模式识别方法的问题SVM的理论基础支持向量机最早是运用于两类分类问题,且大多数情况是非线性的。其基本思想是:首先通过一个非线性变换将输入空间中的向量映射到一个高维的特征空间,然后再在这个高维特征空间中求解最优分类超平面,而这种非线性变换是通过定义适当的内积(核)函数来实现的,也就是说,将高维特征空间中的特征向量和特征空间中向量的内积化为原空间中的核函数计算。目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。解决方法:构造一个在约束条件下的优化问题,具体的说是一个受限二次规划问题,求解该问题,得到分类器。线性判别函数和判别面方程g(x)=0定义了一个判定面,它把归类于C1的点与归类于C2的点分开来。当g(x)是线性函数时,这个平面被称为“超平面”(hyperplane)。当x1和x2都在判定面上时,这表明w和超平面上任意向量正交,并称w为超平面的法向量。广义线性判别函数线性可分分类器的选择最优分类面最优分类面设线性可分的样本集:这样分类间隔就等于,因此要求分类间隔最大,就要求最大.而要求分类面对所有样本正确分类,就是要求满足求最优分类面(最大间隔法)分类面方程满足条件首先建立Lagrange函数广义最优分类面数学表示问题求解得到只要确定,便可解出w,b将上述条件代入L中新的优化问题已知:n个观测样本,(x1,y1),(x2,y2)……(xn,yn)求解根据,求得w,b,得到最优分类面非线性分类面SVM的一般表示支持向量机SVM本质上是两类分类器.常用的SVM多值分类器构造方法有:支持向量机通常的内核函数支持向量机作为一种在统计学习理论基础上发展起来的机器学习方法是目前运用于数据挖掘和模式识别的一个非常强大的工具。具有以下优点:1.模型结构简单,参数较少;2.建模所需要的样本较少,专门针对小样本情况;3.具有较好的泛化能力,对新样本往往能显示出较好的推广能力;4.能够较好的处理非线性和高维数的问题;5.有多种核函数可供选择,建立不同的分类曲面,解决不同类型数据的问题;6.从理论上,算法得到的是全局最优,解决了神经网络方法无法避免的局部最优问题。常用的模型评价方法常用的模型评价方法3.留一法(leave-one-out):留一法可以理解为特殊的交叉验证:即m折(m为数据集的样本总数)交叉验证。每次将数据集中的一个样本作为测试集,而其它全部作为训练集。最后将m个误差结果取均值。留一法的优点时,每次让尽可能多的样本参与训练。它的试验结果具有确定性,因为每个样本均有一次单独作为测试集,不存在随机取样。4.自引导法(bootstrap):基于统计学中的有放回重复抽样产生训练集。设数据集的样本总数为m,用又放回的方式在数据集中随机抽取m个样本作为训练集。不可避免的,在训练集中会有一些重复的样本,而原来的数据集中也会有一些样本没有被抽取到,将这些未被抽到的样本作为测试集。用训练集训练一个学习系统,并用测试集计算误差率。由于训练集可能含有较多的重复样本,所以得到的结果一般较为悲观。所以将测试集误差率e1和训练集数据计算的重新代入误差率e2(即训练集自测试误差率)进行组合,得到最终的误差率估计值e=0.632*e1+0.368*e2.然后将整个自引导过程重复进行几次,取得不同的又放回重复抽样的样本作为训练集,测试结果误差率取平均值。值得一提的是,在随机抽取训练集时,我们可以采用分层技术。确保在训练集和测试集中每个类别或者数据段的比例相当。这种做法是非常有必要的,可以防止训练集和测试集数据的样本代表性不一致而产生的偏差。对应分层技术,有分层旁置、分层n折