如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
Web数据挖掘在个性化推荐服务的应用摘要:随着Internet的迅速发展和普及,人们在网络上开展的活动也越来越多,尤其是电子商务的兴起,使得网上购物逐渐成为一种时尚。然而由于互联网上的信息量日益增长,人们面对这些庞大的信息感到无所适从,花费大量时间在搜寻信息上,因此如何为用户提供更好的服务变得非常迫切。本文以数据挖掘理论为基础,分析和探讨了关联规则挖掘算法并应用该方法实现web个性化推荐服务。关键词:使用挖掘;关联规则;Apriori;个性化推荐WebdataminingusedinthepersonalizedrecommendationserviceCHENPingYUGuo-pingLINGYinAbstract:WiththerapiddevelopmentandpopularizationoftheInternet,networkactivitiesaremoreandmorefrequent.EspeciallytheboomingE-commercemakesonlineshoppingnewfashion.However,peoplearelostintheoverwhelminginformationandspendlotsoftimeonsearching,becauseoftheprogressivelyincreasingoftheamountofinformationontheInternet.Therefore,itisverynecessarytoprovidebetterserviceforusers.Hereweanalyzedanddiscussedassociationruleminingalgorithmsandusedthistoachievewebpersonalizedrecommendationservice,basedonthedataminingtheory.Keywords:Webusagemining;associationrule;Apriori;personalizedrecommendation1引言随着互联网和电子商务的发展,网络信息量日益增长,人们面对这些海量的信息而感到无奈的时候,如果我们能够根据用户的浏览习惯,来预测用户未来的行为,并为其提供个性化的服务,那么将会给买卖双方带来巨大的收益。解决这个问题可以使用Web挖掘技术挖掘出用户感兴趣的潜在有用的模式与信息,然后基于这些模式和信息为用户提供服务。通过Web使用挖掘得到用户的兴趣和爱好,并以此进行个性化推荐,是目前采用的一种重要手段。本文使用关联规则分析技术,挖掘出用户浏览模式并对其进行推荐服务。2Web使用挖掘技术web使用挖掘的研究对象是web使用数据或者web日志,web使用挖掘可以应用于多种不同目的,通过分析一个用户访问的网页序列,可以得到用户的简档信息,从而可以帮助实现个性化。web使用挖掘实际包含三种类型的工作:1)预处理工作,集中对web日志数据的格式进行转化。2)模式发现工作是整个挖掘过程的主要部分,因为这部分工作是从日志数据中发现隐含的模式。3)模式分析工作是研究和解释模式发现工作的结果。目前存在着许多个性化服务系统,根据其所采用的推荐技术可以分为两种:一种是协同过滤技术(CF,CollaborativeFil-tering)它们利用用户之间的相似性来过滤信息。另一种是数据挖掘技术(DM,DataMining),它通过关联规则(AssociationRules)发现、序列模式(SequencePattern)发现、聚类(Clustering)技术、Web挖掘(WebMining)技术等,动态获取用户访问模式,不需要用户提供主观的评价信息,可以处理大规模的数据量,使用方便。3关联规则挖掘技术3.1、关联规则挖掘原理关联规则挖掘是发现交易数据库中不同商品(项)之间的联系,通过这些规则找出顾客的购买行为模式。设I={i1,i2,,…,im}是项(Item)的集合。记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且。定义1:关联规则是形如A→B的蕴涵式。这里A1,BI并且A∩B=Φ。定义2:规则的支持度和可信度。规则A→B具有支持度S,表示S是D中事务包含A∪B的百分比,它是概率P(A∪B),其中|D|表示事务数据库D的个数。即规则A→B在数据库中具有可信度C,表示C是包含A项集的同时也包含B项集,这是条件概率P(B|A),其中|A|表示数据库中包含项集A的事务个数。即:定义3:阈值。为了在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度阈值(min_sup)和最小可信度阈值(min_conf)