如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
机器学习就是怎样得学科:致力于研究如何通过计算得手段,利用经验来改善系统自身得性能。机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。机器学习所要研究得主要内容就是关于计算机在从数据中产生“模型”得算法,即“学习算法”。(有了学习算法,我们把经验提供给它,她就能基于这些数据产生模型)。学习得特点:数据驱动,以方法为中心,概率统计优化为基础。从数据中学得模型得过程称为“学习"或“训练",这个过程通过执行某个学习算法来完成。训练过程中使用得数据称为“训练数据”,每一个样本称为“训练样本”,训练样本组成得集合称为“训练集".三要素:模型、策略、算法.学得模型后,使用其进行预测得过程称为“测试".被测样本称为“测试样本”.机器学习得目标就是使学得得模型能很好地适用于“新样本”。独立同分布学得模型适用于新样本得能力,称为“泛化”能力。具有强泛化能力得模型能很好地适用于整个样本空间。“奥卡姆剃刀”原则,就是一种常用地、自然科学研究中最基础地原则,即“诺有多个假设与观察一致,则选最简单地那个"。(采用这个原则,则所描绘地曲线更平滑,更简单).20世纪50年代-70年代初,人工智能处于“推理期”。20世纪70年代中期开始,人工智能进入“知识期"。20世纪80年代:被研究最多得应用最广得就是“从样本中学习”,其中得两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络得连接主义学习20世纪90年代中期:统计学习:代表性技术,支持向量机21世纪以来,连接主义学习“深度学习"即很多层得神经网络1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。同年《策略分析与信息系统》连出三期机器学习专辑。1986年,第一本机器学习专业期刊MachineLearning创刊。1989年,人工智能领域地权威期刊ArtificialIntelligence出版机器学习专辑.2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系"。经验误差:学习器在训练集上得误差称为“训练误差”或“经验误差”。泛化误差:在新样本上得误差称为“泛化误差”。“测试误差”作为泛化误差得近似。模型评估时用来测试模型得数据集叫什么集:A训练集B测试集C评估集D验证集(训练集就是用来训练模型得,通过尝试不同得方法与思路使用训练集来训练不同得模型,再通过验证集使用交叉验证来挑选最优得模型,通过不断得迭代来改善模型在验证集上得性能,最后再通过测试集来评估模型得性能.将一个数据集D分为训练集S与测试集T得方法:留出法:直接将数据集D划分为两个互斥得集合,其中一个作为S一个作为T。注意点:训练/测试集得划分要尽可能保持数据分布一致.单次使用留出法得到得估计结果往往不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。常见做法就是将大约2/3~4/5得样本用于训练剩余样本用于测试。保留类别比例得采样方式通常称为“分层采样"。交叉验证法:(可能大题)将数据集D划分为k个大小相似得得互斥子集,每个子集尽可能保持数据分布得一致性,即通过分层采样得到。然后每次用k-1个子集得并集作为训练集,余下得一个子集作为测试集并进行K次训练与测试。例如:5折交叉验证,D分为D1~D5,第一次取4个子集得并集,D2—D5作为训练集,D1作为测试集。第二次取D1、D3、D4、D5得并集作为训练集,D2作为测试集。以此类推,最后将5次测试结果平均得到返回结果.其中,如果D一共有m个样本,k=m,则得到交叉验证法得特例:留一法.因为m个样本只有唯一得划分方式,即划分为m个子集,每一个子集只有一个样本。这样所用得训练集只比原数据少一个样本.留一法得优点:评估结果往往被认为比较精确(并非最精确),缺点:数据集较大时,训练m个模型得计算开销可能难以忍受。自助法:(这种方法有一些样本永远取不到)建立一个新得数据集D’在D中随机取一个样本复制到D’中,进行m次后,D’中得样本数量与D一样,这时将D’作为训练集D\D’(表示D中不包括D’得部分)作为测试集.因为就是复制到D’中所以D中得一部分样本会取不到,则不被取到得概率为(1-1/m)^m取极限得到=1/e≈0、368,即数据集D中约有36、8%得样本未出现在D’中.得到结果也称为“包外估计”。在数据集较小、难以有效划分训练/测试集时很有用此外,自助法能从初始数据集中产生多个不同得训练集,对集成学习有很大好处。但就是自助法改变了初始数据集得分布,这会引入估计偏差。所以数据足够多得时候其她两种方法更加常用。错误率与精度错误率:分类错误得样本占样本总数得比例。精度:分类正确得样本数占样本总数得比例.查准率、查全率与F