数据分析岗面试题与参考答案解析.pdf
上传人:文库****品店 上传时间:2024-09-11 格式:PDF 页数:1 大小:66KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据分析岗面试题与参考答案解析.pdf

数据分析岗面试题与参考答案解析.pdf

预览

在线预览结束,喜欢就下载吧,查找使用更方便

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据分析岗⾯试题与参考答案解析1.怎么做恶意刷单检测?a.选取特征利⽤机器学习⽅法做分类。特征:结合商家特征和环境特征做商家恶意刷单分类预测,结合⽤户⾏为特征和环境特征做⽤户恶意刷单分类预测。1)商家特征:商家历史销量、信⽤、产品类别、发货快递公司等。2)⽤户⾏为特征:⽤户信⽤、下单量、下单路径、浏览店铺⾏为、⽀付账号。3)环境特征(主要是避免机器刷单):地区、ip、⼿机型号等。注:构造特征。刷单的评论⽂本可能套路较为⼀致,计算与已标注评论⽂本的相似度作为特征。机器学习⽅法:决策树,感知机,逻辑回归,⽀持向量机,随机森林b.异常检测:ip地址经常变动(固定时间内变动次数)、账号近期交易成功率上升(固定时间内交易成功率)------利⽤箱型图进⾏结构化检测。机器学习中的异常检测⼿段:1)总体来讲,异常检测问题可以概括为两类:⼀是对结构化数据的异常检测,⼆是对⾮结构化数据(通过对图像⽬标检测,识别出异常点)的异常检测。2)对结构化数据的异常检测的解决思想主要是通过找出与正常数据集差异较⼤的离群点,把离群点作为异常点。常常⾯临的问题有⼆:⼀是需要定义⼀个清晰的决策边界,从⽽界定正常点与异常点;⼆是维数灾难及交叉指标计算之间的⾼频计算性能瓶颈。3)结构化的数据的异常检测⼿段:图形位置分布(箱型图),统计⽅法检测(切⽐雪夫不等式的⽅法能够有效地划分出三个类别,包括正常数据、异常数据、未知数据)+距离检测(距离位置检测有⼀个⾮常强的假设:正常的数据都⽐较集中,有较多的邻居,⽽异常数据都特⽴独⾏。未知数据的簇⾥⾯寻找出与正常数据更不相似的,或者和异常数据更相似的数据就可以了。)2.K-means算法a.k-means原理:随机选择k个中⼼点,把每个数据点分配到离它最近的中⼼点,重新计算每个簇的质⼼,直到质⼼不发⽣变化。b.改进:1)kmeans++:初始随机点选择尽可能远,避免陷⼊局部解。2)ISODATA:对于难以确定k的时候,使⽤该⽅法。思路是当类下的样本⼩时,剔除;类下样本数量多时,拆分。3)kernelkmeans:kmeans⽤欧⽒距离计算相似度,也可以使⽤kernel映射到⾼维空间再聚类。c.遇到异常值:1)局部异常因⼦LOF:如果点p的密度明显⼩于其邻域点的密度,那么点p可能是异常值.。2)使⽤PCA或⾃动编码机进⾏异常点检测:使⽤降维后的维度作为新的特征空间,其降维结果可以认为剔除了异常值的影响(因为过程是保留使投影后⽅差最⼤的投影⽅向)。3)winsorize:对于简单的,可以对单⼀维度做上下截取。d.评估聚类算法的指标:1)外部法(基于有标注):Jaccard系数、纯度2)内部法(⽆标注):内平⽅和WSS和外平⽅和BSS