网络环境下的大规模内容计算-PowerPointPre.ppt
上传人:努力****骞北 上传时间:2024-09-10 格式:PPT 页数:48 大小:7.5MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

网络环境下的大规模内容计算-PowerPointPre.ppt

网络环境下的大规模内容计算-PowerPointPre.ppt

预览

免费试读已结束,剩余 38 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

网络环境下的大规模内容计算------WebSearchandWebMiningOutlineABigProblem!抛开争论看Web搜索的发展WebMining:海量信息空间内的知识发现“Web2.0”:热闹背后有什么?Motivation:“问题还是那个问题,目标不再是那个目标”OutlineOrganizationsofICTRelatedworksinI3S@ICTDataStreamManagementQueryProcessingMultiplefilteringqueriesprocessingonsinglestreamJoinalgorithmsonmultiplestreamsDataStreamminingFrequentpatternsdiscoveryClusteringEmergenceprediction…MultipleStringsMatchingPartition:CombinatorialOptimizationMatching(ICT-COM)OptimizationAnalysis4subsetsweregivenbyCOMandassignedwithdifferentalgorithms.3-9(AC),10-13(SBOM),14-35(SBOM),36-210(SBOM)ThespeedofCOMisabout3timesfasterthanthequickestclassicalone.ICT-COMisanefficientlarge-scalestringmatchingalgorithm.LexicalProcessingHHMMArchitectureinICTCLASIIIClass-basedsegmentationRole-basedUnknownwordrecognitionChineseNewWordIdentificationChineseNewWordIdentificationRecognitionSampleTextMiningFromtheviewofgranularity,clusteringisaprocedureinauniformgranularity,whileclassificationindifferentgranularities.illustration:DragPushingasarefinementstrategytoenhancetheperformanceofthelatterhigh-speedtextclassifiers,suchasCBorRocchio.Themainmotivationbehindthisstrategyisthehypothesisthattherestillexistsroomforperformanceimprovementbecausethelearningalgorithmitselfmayhaveinductivebias,orthetextcollectionmaymisfitthelearningmodeltosomedegree.DragPushing训练与分类时间:与Centroid相当现象一套集中式的计算方法为所有类型的用户提供服务往往是众口难调。Google等检索的前提同样的输入总有一个最符合“大多数”人群需求的结果集。遗憾的是,网络中,“少数人的需求”才是真正的大多数网络信息的实时性、动态性、多样性和巨大规模只能使得集中式检索放弃传统查全率概念,与此同时仍然避免不了大量的垃圾。原因分析一方面是知识不完全、计算不完备情况下的集中、近似计算另一方面是存在大规模个性差异的信息需求二者的本身是“不匹配”的直观求解人人平等:每个人都是需求方也都是提供方,没有传统意义上的独立服务器各人自扫门前雪:我只关注我想要的东西和我能提供的东西人人为我,我为人人:遵循最基本的原则,包括内容路由规则、SWEffect,PL等P2P计算与构造个性化信息空间的初步设想WonGoo:基于P2P的内容关联平台WonGoo@WAX:ResearcherNetworkCommunityIdentificationOutline共享系统与算法工具包定位1:小规模的直接用户(无须编程,快速搭建全文检索系统)直接提供了多种文件格式解析器(HTML,PDF,WORD等);采用类似于XML格式的配置文件,可以根据数据集和机器配置情况,灵活配置整个系统。定位2:科研人员(提供信息检索与文本分析算法研究环境)提供了TREC文档集解析器;检索模型易于扩展;提供了3种前向索引方式,可以直接用来做文本分类、聚类,摘要等实验;定位3:二次开发者(提供可扩