如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第6章分类和预测什么是分类?什么是预测?关于分类和预测的问题用决策树归纳分类贝叶斯分类后向传播分类惰性学习其他分类方法预测分类法的准确性WebCrawl/WebRobot网络爬虫(又称为网页蜘蛛,网络机器人)是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后查询和检索网络爬虫的组成由控制器,解析器,资源库三部分组成控制器控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。解析器是负责网络爬虫的主要部分:下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。资源库主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。Web挖掘从Web访问日志中提取重要的模式一个基本任务是区分用户访问和WebRobot的访问。怎样让软件自动识别?教会它6.1分类与预测分类:预测分类标号预测:建立连续值函数模型典型应用数据分类―一个两步过程模型建立:描述预定的数据类集模型使用:为将来或未知的对象分类即用模型预测分类过程(1):模型建立分类算法训练数据NAMEMikeMaryBillJimDaveAnneRANKYEARSTENUREDAssistantProf3noAssistantProf7yesProfessor2yesAssociateProf7yesAssistantProf6noAssociateProf3no分类规则IFrank=‘professor’ORyears>6THENtenured=‘yes’分类过程(2):在预测中使用模型分类规则测试数据新数据(Jeff,Professor,4)NAMETomMerlisaGeorgeJosephRANKYEARSTENUREDAssistantProf2noAssociateProf7noProfessor5yesAssistantProf7yesTenured?Supervisedvs.UnsupervisedLearning监督学习(Supervisedlearning)(分类)监督:训练数据的分类标号已知(通过观察、度量等)根据训练数据集对新数据分类无监督学习(Unsupervisedlearning)(聚类)训练数据的分类标号未知要学习的类或集合的个数也可能未知用聚类尝试确定“相似的组群”6.2分类和预测的问题(1):数据准备数据清理消除、减少噪声,处理缺失值相关分析分析强相关的冗余属性和不相关属性,探查对分类无用的属性数据变换与归约规范化、概念分层分类和预测的问题(2):比较分类方法分类的准确率评估分类器的预测准确率需要用测试数据而不是训练数据来检测,避免过拟合(overfit)。速度鲁棒性:能适应噪声和数据缺失可伸缩性可解释性分类与预测不同(数值)预测没有“类标号”因为处理的属性值是连续值构建模型的方法不同6.3用决策树归纳分类决策树一个类似流程图的树结构每个内部节点表示在一个属性上的测试每个分支代表一个测试输出每个树叶节点代表类或类分布决策树的产生包含两个方面树的构造树的剪枝决策树的使用:对未知样本分类样本的属性值在决策树上测试训练数据集age<=30<=3031…40>40>40>4031…40<=30<=30>40<=3031…4031…40>40incomestudentcredit_ratinghighnofairhighnoexcellenthighnofairmediumnofairlowyesfairlowyesexcellentlowyesexcellentmediumnofairlowyesfairmediumyesfairmediumyesexcellentmediumnoexcellenthighyesfairmediumnoexcellentbuys_computernonoyesyesyesnoyesnoyesyesyesyesyesno输出:输出概念“buys_computer”的决策树的决策树age?<=30student?nonoyesyesovercast30..40yes>40creditrating?excellentn