数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt
上传人:天马****23 上传时间:2024-09-11 格式:PPT 页数:33 大小:3.5MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt

数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt

预览

免费试读已结束,剩余 23 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

遇到的问题帮助用户从大量信息中找到自己感兴趣的信息。比如你今天想下载一部电影看看,但当你打开某个下载网站,面对100年来发行的数不胜数的电影,你会手足无措,不知道该看哪一部。推荐系统可以根据你以往的观影记录,为你推荐相关的电影。推荐可以两方面入手:基于内容的推荐->相关导演、演员的其他作品;基于协同过滤的推荐->找到与自己历史兴趣相同的用户群,推荐该用户群喜欢的电影。赛题介绍在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。比赛形式设计一个推荐算法,基于算法和已有数据得出第五个月用户可能购买的品牌。训练集:用于建立模型;验证集:用于评估模型。例如可以用1-2月的数据作为训练集,3月的数据作为验证集,以此来检验算法的效果。然后再用3-4月的数据作为训练集,得出推荐结果。最终提交推荐结果,由系统给出分数。评估指标预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好。参赛成绩:第60名比赛时间较长,持续4个月,比较耗时间。后劲不足,没有达到预期的成绩。通过竞赛,对推荐算法的入门有了深入的理解与实践。阿里大数据竞赛提供的数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。对数据的处理:提取特征特征:推荐算法所考虑的因素,如用户过去一个月对品牌的点击次数用户过去一个月对品牌的购买次数品牌过去一个月的总销量......算法1:简单的推测"规律"点击次数多,购买可能性较大;加入购物车、收藏,购买可能性较大;最近有浏览过的品牌,购买可能性较大;......算法1:简单的推测"规律"首先将数据转化为特征值:点击次数click加入购物车is_cart收藏is_fav几天前有浏览过days实现1:直接利用规律if(this.days<=2&&this.click>=10)thenrecommend(this);if(this.is_cart&&days<=3)thenrecommend(this);....算法1:简单的推测"规律"点击次数click加入购物车is_cart收藏is_fav几天前有浏览过days实现2:设定权值,并计算分值(通过验证集找到较优权值)W=w1*click+w2*is_cart+w3*is_fav+w4*1/days例如得到一个较有权值:w1=0.1,w2=0.2,w3=0.2,w4=0.5算法2:逻辑回归(Logisticregression)Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某事件的可能性。如某用户购买某商品的可能性、广告被某用户点击的可能性等。算法2:逻辑回归(Logisticregression)组成1:回归回归是对已知公式的未知参数进行估计。如已知公式是y=a*x+b,未知参数是a和b。我们现在有很多真实的(x,y)数据(训练样本),回归就是利用这些数据对a和b的取值去自动估计。算法2:逻辑回归(Logisticregression)组成2:线性回归如鞋子定价与鞋子销量的问题。y=a*x+b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a,b取值,使y=a*x+b在所有样本集上误差最小。算法2:逻辑回归(Logisticregression)组成2:线性回归如鞋子定价与鞋子销量的问题。y=a*x+b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a,b取值,使y=a*x+b在所有样本集上误差最小。一元变量关系比较直观,但若是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell=a*x+b*y+c*z+d*γ+e。这个时候画图就画不出来了,规律也十分难找,这时就得交给线性回归程序去完成。算法2:逻辑回归(Logisticregression)组成3:Logsitic方程上面提到的sell计算出来是一个数值,但我们需要的是一个[0,1],类似概率的值,于是引入了Logistic方程,来做归一化。所以逻辑回归就是一个被Logistic方程归一化后的线性回归。算法2:逻辑回归(Logisticregression)实现:使用算法库R语言、Py