(读过)Apriori算法在BBS舆情分析系统中的应用.pdf
上传人:qw****27 上传时间:2024-09-12 格式:PDF 页数:4 大小:269KB 金币:15 举报 版权申诉
预览加载中,请您耐心等待几秒...

(读过)Apriori算法在BBS舆情分析系统中的应用.pdf

(读过)Apriori算法在BBS舆情分析系统中的应用.pdf

预览

在线预览结束,喜欢就下载吧,查找使用更方便

15 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据Apriori算法在BBS舆情分析系统中的应用引言BBS舆情分析系统概述任晓霞1,李卓玲2,周振柳20需要专门的软件来完成这些工作,同时要求这个软件分析,但是并没有专门针对BBS内容进行监控的应用沈阳工程学院学报(自然科学版)Engineering(NaturalScience)(1.沈阳理工大学信息科学与工程学院,沈阳110168;2.沈阳工程学院信息工程系,沈阳110136)随着互联网的日益发展BBS作为一种方便、简单、直接的交流方式,被越来越多的人用来发表自己对于某些事件的意见和态度.由于在BBS上发言的匿名性和自由性,导致其中不乏一些反动言论和虚假信息,因此相关部门需要对BBS上的信息进行监控、筛选、过滤,对一些不法的言论和事件及时地进行处理,为广大网民创造一个干净、纯洁的网络环境,以保证社会的稳定和人民的团结.由于BBS的多样性及其信息的复杂性,BBS舆情分析、监控、过滤的工作很难由人工来完成.相关部门能够自动分析、过滤这些信息,以节省人力开销.BBS舆情智能分析系统要求能够实现BBS舆情信息的自动获取、自动分类、自动提取和自动分析.这就需要一个知识规则库来确定敏感词汇,并进一步判断敏感帖子,而动态更新的知识规则库更能提高判断的准确性及匹配效率.1BBS舆情是指公众通过BBS表达和传播的,对公共事物所持有的多种情绪、态度和意见交错的总和.由于BBS发言的匿名性、言论的自由性和信息交流的即时性,相关部门必须对BBS上的信息进行实时地监控与过滤.目前大多数网站的BBS都是采用人工监视的方式,如上网浏览、下载,或者直接从数据库中复制、粘贴,然后分析这些数据.也有一些监控人员采用向量空间模型、聚类、BP神经网络等算法来对热点话题进行系统⋯.BBS舆情智能分析系统能够实现从BBS数据的自动获取和分类数据、自动提取关键词、自动分析热点话题和预测观点发展趋势,实现以最小的人力物力开销达到最优的舆情分析效果.BBS舆情分析系统能够实现BBS舆情信息分析的智能化,将论坛监控的工作交由系统来完成,最终可以不必人工地对各个BBS进行跟踪、监控,就能及时、准确、全面、客观地掌握所需BBS信息.在对BBS的帖子进行监控时,系统需要建立一个知识规则库,来确定哪些词是敏感词汇,可能构成某些不法人员的具有煽动性的语句.由于突发事件的多样性和实时性,潜在要求这个规则库中的敏感词汇不仅能够检测出不法帖子本身,也能够对一些使用比较频繁的词语进行收录,也就是要求知识规则库应该是按照一定规则动态增加的,也只有这样,系统才能更加准确地检测出敏感贴.这里获取了网易BBS一段时间内某个话题的帖子,使用Apriori算法来更新知识规则库后,相比直接将每个敏感帖子的所有关键词添加到知识规则库中,监视的准确度有了很大提高.Journal摘要:知识规则库的准确度是影响BBS真情分析系统能否准确高效地对BBS舆情进行监控的一个重要因素.Apriod算法作为关联规则挖掘的经典算法,是发现关联规则的一种准确有效的方法.通过利用Ap五ori算法来动态更新知识规则库内容,实验结果表明,系统使用该算法后对BBS舆情监视的准确度有明显的提高.关键词:知识规则库;Apfiofi算法;BBS舆情分析中图分类号:TP311文献标识码:A文章编号:1673—1603(2010)03-0258—03第6卷第3期0年7月ofShenyangInstitute收稿日期:2010—03—17基金项目:辽宁省教育厅科技研究资助项目(1.2010387)作者简介:任晓霞(1984一),女,河南荥阳人,硕士研究生.李卓玲(1957一),女,四川乐山人,教授,硕士,主要从事数据挖掘、信息安全等的研究2016N0.3Jul.20lOVok万方数据黑霪渺弋!印再i薪螽忿满y,则称关联规则精】,的支持度为Apriori算法简介Apriod算法在BBS舆情分析中的应用4实验与分析弋过王塞持废夕1关联规则就是支持度和信任度分别高于或等于用现关联规则需要经历2个步骤:①找出所有的频繁项信任度,将Apriofi算法应用到1个或多个论坛中.事感贴.考查该贴其他关键词,假设A和E都不在知识的信任度都高于用户给定的信任度阈值,那么词语如果系统事先不对帖子的关键词进行分析,就将每个敏感话题帖子的所有关键词加入到知识规则库中,知识规则库将会变得非常庞大,并且其中会含有一些对于识别敏感帖产生误差的词汇,而且帖子关键词任晓霞,等:Apriori算法在BBS舆情分析系统中的应用2由项目构成的集合称为项集.项集在事务数据库中出现的次数占数据库中总事务的百分比叫做项集的支持度.规则的信任度就是所有包含x也包含l,的事务的比例!引.户给定阈值的规则,它是形如x号l,的逻辑蕴含式,其中XC,,YC,,且xnY=矽.如果事务数据