EM算法介绍.doc
上传人:sy****28 上传时间:2024-09-13 格式:DOC 页数:24 大小:22KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

EM算法介绍.doc

EM算法介绍.doc

预览

免费试读已结束,剩余 14 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

EMAlgorithmXiaoHan,HPLabsartex.xh@gmail.comVer.5.2008.10.31Reference:ChristopherM.Bishop,PatternRecognitionandMachineLearningForlatestversion,pleasevisithttp://glatteis.spaces.live.com2XiaoHan2008/10/20预备知识概率(加法、乘法、条件概率、i.i.d.、多维随机变量、高斯分布、贝叶斯、Maximumloglikelihood)求导(偏导、向量求导、矩阵求导、拉格朗日乘法)3XiaoHan2008/10/20问题的来源给定一些观察数据x,假设x符合如下的混合高斯分布我们要求混合高斯分布的三组参数4XiaoHan2008/10/20问题图示5XiaoHan2008/10/20简化的问题该混合高斯分布一共有k个分布,并且对于每一个观察到的x,如果我们同时还知道它是属于k中哪一个分布的,则求各个参数并不是件难事比如用z来表示每一个高斯分布,那么我们的观察集不仅仅是{x1,x2,x3…},而是{(x1,z2),(x2,z3),(x3,z1)…}6XiaoHan2008/10/20简化问题的图示7XiaoHan2008/10/20实际问题而现实往往是:我们不知道每个x属于哪个分布,也就是说z是我们观察不到的,z是隐藏变量(latentvariable)8XiaoHan2008/10/20引入两个概率p(x)p(x,z)9XiaoHan2008/10/20隐藏变量Z为了将k个高斯分布用一个随机变量表示可以采用1-of-K的表示法,例如k=3时:z1=1表示(100),并p(z1=1)=π1,z2=1表示(010),并p(z2=1)=π2,z3=1表示(001),并p(z3=1)=π3于是这里的粗体z表示的是形如(100)这样的向量10XiaoHan2008/10/20隐藏变量与混合高斯分布将Z引入后最终得到11XiaoHan2008/10/20约定对于观察集{X}中的各个观察值xi,我们认为相互之间独立。特别的,如果x1,x5,x9来自于同一高斯分布,我们认为他们满足i.i.d.(独立同分布)12再看简化的问题XiaoHan2008/10/20前面说过,在简化问题中我们观察到的是{X,Z},因此根据以下两个式子可以得到N是数据集X的大小13XiaoHan2008/10/20两个问题的比较回忆我们的最终目标是:找一组合适的π,μ,Σ,满足数据集{X}的分布。即:maximumlog-likelihood对原始问题,我们要找π,μ,Σ,使下式最大对简化问题,同样要找π,μ,Σ,使下式最大Znk表示Zn的第k个元素14XiaoHan2008/10/20计算复杂度后者的ln直接作用于正态分布,使正态分布由乘的e指数形式变为加的简单形式15简化问题的计算1XiaoHan2008/10/20为了最大化上式,由于Znk已知,我们可以把上式按观察到的(x,z)分为k组:lnp(X,Z|,,)ln1lnN(xn|1,1)ln2lnN(x2|2,2)...lnklnN(xn|k,k)nCknC1nC2由于这k组分布相互独立,我们只需要分别最大化每一组Σ16简化问题的计算2而最大化nCkXiaoHan2008/10/20lnklnN(xn|k,k)实际变成一个单高斯分布最大化参数的问题,因为:nCklnklnN(xn|k,k)nlnknCklnN(xn|k,k)nlnkln[N(x1|k,k)N(x2|k,k)N(xn|k,k)]nlnklnN(X|k,k)其中X是所有属于第k个分布的观察值n是指有多少个观察值属于第k个分布17简化问题的计算3――计算单一高斯分布的参数XiaoHan2008/10/20先对求μ偏导(此处用到(xTa)(aTx)axx)令上式等于0则,同理可得18XiaoHan2008/10/20简化问题的结论1kNk1kNk其中zn1Nn1Nnknxznk(xnk)(xnk)TNNkznkn1这是上页μ和Σ两式的一般式,注意Znk只能取0或1此式便不难理解19XiaoHan2008/10/20关于参数π由于要使lnp(X,Z|,,)达到最大,同时参数π必须满足,运用拉