如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
HYPERLINK"http://ryee.javaeye.com/blog/758707"LDA算法靠近google对于SEOr每天面对的挑战来自于搜索引擎的排序算法,因为这个算法是对搜索词汇在结果页中排名到底的重要依据,并且搜索引擎通过构建一个可学习的模型来识别页面上的文本内容。LDA算法-主题建模&分析LDA算法公式:为了便于理解这里有个简化的形式:我们来尝试解释一下,主题词的机会=该主题所在文档的出现频次X改主题词使用的频次;Google会分析用户查询词汇与哪些主题是相关的,这些相关会通过描述词的周边属性来考察,例如:“桔子”与它相关的属于水果,橙色的颜色属性等等这些内容都是它的相关联的。LDA方法是非常强大的自动化学习算法,他扩展了关键词组合、复合文档间的关联。他已经在很多领域作出了杰出贡献。贝叶斯定律–贝叶斯过滤方法被应用于反垃圾处理。他有效的降低了索引数据库杂质和词语的不准确性。相关算法还包括:TF*IDF权重公式,比粗糙的关键词密度等指标,可以更加准确影响到关键词排名因素。-FollowedIPs这是我们最关心的对链接权重的考量,重点在于文本链接的价值。-LDACosine主题与页面相关性。看一些简单的例子:单一关键词内容A包含关键词Batman,而内容B中不包含;显然搜索引擎很容易使用内容A参与排名。2.关键词词组关键词组合那个排名靠前,这要取决于两者那个更加相关,Wiggum与Chief相比关键词Chief更加普遍(相关性广泛)因此内容A更容易被捕获。备注:这个例子恰恰也说明了另外一个流行的关注指标-关键词密度,你知道怎样理解了:)3、组合关键词(复合词)搜索引擎的相关度(relevancy),看了内容大家很容易从内容B中的描述"DailyPlanet""ClarkKent"就会联想到超人的主要特征,带着黑边眼镜的日报记者-克拉克:)所以很明显内容B相关性优于内容A。4、主题模型通过内容作为人的理解能力是可以看出很明显的相关,内容B描述的乐器-一个女人在演奏这种乐器,但是搜索引擎没有这种经验和经历,没有相关联的关键词如内容A中的更加难以识别。但幸运的是,从LDA的算法中已经评估出来内容B优于内容A。这是一种强健的算法:)总结:1、算法建立在用户体验基础之上的,我们用用户的思维来考虑问题。2、搜索引擎也在着力解决这些问题,有可能仅仅是时间的问题。