如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第二章贝叶斯决策理论鲈鱼or鲑鱼对x再观察:有细胞光密度特征,有类条件概率密度:P(x/ωί)ί=1,2,…。如图所示利用贝叶斯公式:通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。设N个样本分为两类ω1,ω2。每个样本抽出n个特征,x=(x1,x2,x3,…,xn)T2、决策规则:x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1未知细胞x,先从类条件概率密度分布曲线上查到:解:该细胞属于正常细胞还是异常细胞,先计算后验概率:g(x)二、多类情况:ωί=(ω1,ω2,…,ωm),x=(x1,x2,…,xn)1.判别函数:M类有M个判别函数g1(x),g2(x),…,gm(x).每个判别函数有上面的四种形式。2.决策规则:§2-2正态分布决策理论一、正态分布判别函数1、为什么采用正态分布:a、正态分布在物理上是合理的、广泛的。b、正态分布数学上简单,N(μ,σ²)只有均值和方差两个参数。2、单变量正态分布:3、(多变量)多维正态分布(1)函数形式:(2)、性质:①μ与∑对分布起决定作用P(χ)=N(μ,∑),μ由n个分量组成,∑由n(n+1)/2元素组成。∴多维正态分布由n+n(n+1)/2个参数组成。②等密度点的轨迹是一个超椭球面。区域中心由μ决定,区域形状由∑决定。③不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。④线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。⑤线性组合的正态性。一个线形变换将一个任意的正态分布变换成另一个正态分布马氏距离判别函数:类条件概率密度用正态来表示:讨论:未知x,把x与各类均值相减,把x归于最近一类。最小距离分类器。讨论:针对ω1,ω2二类情况,如图:3、第三种情况(一般情况):Σί为任意,各类协方差矩阵不等,二次项xTΣίx与i有关。所以判别函数为二次型函数。§4-3关于分类器的错误率分析1、一般错误率分析:2、正态分布最小错误率(在正态分布情况下求最小错误率)§4-4最小风险Bayes分类器假定要判断某人是正常(ω1)还是肺病患者(ω2),于是在判断中可能出现以下情况:第一类,判对(正常→正常)λ11;第二类,判错(正常→肺病)λ21;第三类,判对(肺病→肺病)λ22;第四类,判错(肺病→正常)λ12。在判断时,除了能做出“是”ωi类或“不是”ωi类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念:在整个特征空间中定义期望风险,期望风险:条件风险只反映对某x取值的决策行动αi所带来的风险。期望风险则反映在整个特征空间不同(某一)的x取值的决策行动所带来的平均风险。二类问题:把x归于ω1时风险:把x归于ω2时风险:§4-5Bayes分类的算法(假定各类样本服从正态分布)1.输入类数M;特征数n,待分样本数m.2.输入训练样本数N和训练集资料矩阵X(N×n)。并计算有关参数。3.计算矩阵y中各类的后验概率。4.若按最小错误率原则分类,则可根据3的结果判定y中各类样本的类别。5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。例1、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?解1、假定二类协方差矩阵不等(∑1≠∑2)则均值:解2、假定两类协方差矩阵相等∑=∑1+∑2训练样本号k可得三类分界线如图所示:解2、设三类协方差矩阵相等可得三类分界线如图所示:作业:①在下列条件下,求待定样本x=(2,0)T的类别,画出分界线,编程上机。1、二类协方差相等,2、二类协方差不等。作业:②有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=N3=3、n=2、M=3,试问,X=(-2,2)T应属于哪一类?§4-6在一类错误率固定使另一类错误率最小的判别准则(聂曼-皮尔逊判决neyman-pearson)例:两类的模式分布为二维正态协方差矩阵为单位矩阵∑1=∑2=I,设ε2=0.09求聂曼皮尔逊准则T.解:所以此时聂曼——皮尔逊分类器的分界线为:§4-7最大最小判别准则:前边的讨论都是假定先验概率不变,现在讨论在P(ωi)变化时如何使最大可能风险最小,先验概率P(ω1)与风险R间的变化关系如下:这样,就得出最小风险与先验概率的关系曲线,如图所示:讨论:上式证明,所选的判别边界,使两类的概率相等:§4-8决策树—多峰情况Bayes分类器只能适用于样本分布呈单峰情况,对多峰情