如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
特征选择方法特征选择方法特征选择法,相信只有少部分人听说过,究竟是什么呢?下面是小编给大家整理的关于特征选择方法,欢迎阅读!特征选择方法1特征选择之所以要引起重视的原因,那就是随着科技发展,很多领域能采集到的特征变量数以万计,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处包括:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为:过滤式、包裹式、嵌入式。一、过滤式变量排序就是一种典型的过滤式方法,该方法独立于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法,比如pearson相关系数,信息论理论中的互信息等。二、包裹式这类方法的核心思想在于,给定了某种模型,及预测效果评价的方法,然后针对特征空间中的不同子集,计算每个子集的预测效果,效果最好的,即作为最终被挑选出来的特征子集。注意集合的子集是一个指数的.量级,故此类方法计算量较大。故而针对如何高效搜索特征空间子集,就产生了不同的算法。其中有一种简单有效的方法叫贪婪搜索策略,包括前向选择与后向删除。在前向选择方法中,初始化一个空的特征集合,逐步向其中添加新的特征,如果该特征能提高预测效果,即得以保留,否则就扔掉。后向删除即是说从所有特征构成的集合开始,逐步删除特征,只要删除后模型预测效果提升,即说明删除动作有效,否则就还是保留原特征。要注意到,包裹式方法要求针对每一个特征子集重新训练模型,因此计算量还是较大的。三、嵌入式嵌入式方法将特征选择融合在模型训练的过程中,比如决策树在分枝的过程中,就是使用的嵌入式特征选择方法,其内在还是根据某个度量指标对特征进行排序。除了直接从原始特征中进行选择,我们还可以对特征进行变换、组合,这种思路称为特征构造。其中主要的方法总结如下。一、聚类可以使用kmeas、层次聚类后的聚类中心点来代替相应簇中的一组特征。二、线性组合SVD(singularvaluedecomposition)、PCA均可视为此类方法,核心思想就是对原有特征进行线性组合,使用组合后的特征作为新的特征输入到训练模型中。这类方法的好处是,考虑到了变量之间可能存在的互补作用,进行组合后,有可能生成了一个更有效的新特征。总体上,笔者今日所阅读的文章或书本仍偏于理论,较少介绍在某个实践项目中具体是如何开展的。希望市面上再多一些工程师写的书,少一些大学教授的书。特征选择方法2搜索策略一、完全搜索1、BestFirst(最佳优先)最佳优先搜索时宽度优先搜索的扩展,基本思想是将节点表按据目标的距离进行排序,再以节点的估计距离为标准选择待扩展的节点。算法步骤:1.用N表示已经排序的初始结点表(从小到大)2.如果N为空集,则退出并给出失败信号3.n取为N的首结点,并在N中删除结点n,放入已访问结点列表4.如果n为目标结点,则退出并给出成功信号5.否则,将n的后继结点加到N中,记为N’,对N’中的结点按距目标的估计距离排序,并返回2步在搜索的过程中一般会用到评估函数f(n),表示从初始节点S经过n到达目的节点t的最佳路径代价f*(n)的估计:从S到n的最佳代价g*(n)的估计g(n),g(n)≥g*(n),即局部最小≥全局最小从n到t的最佳代价h*(n)的估计h(n),若对所有结点n,都有h(n)≤h*(n),则算法A一定能找到一条到达目标结点的最佳路径,此时算法A称为算法A*。f(n)=g(n)+h(n)作为f*(n)=g*(n)+h*(n)的估计,估计值越小的点希望越高,应该优先扩展。2,ExhaustiveSearch(穷举搜索);枚举了所有的特征组合,属于穷举搜索,时间复杂度是O(2n),实用性不高。二、随机搜索方法。1、RandomSearch(随机搜索):算法描述:随机产生一个特征子集,然后在该子集上执行SFS与SBS算法。算法评价:可作为SFS与SBS的补充,用于跳出局部最优值。2、ScatterSearchV1(离散搜索):三、序列搜索方法a.单独最优组合:RankSearch(评估器计算属性判据值并排序),Ranker(属性判据值排序);b.向前搜索:LinearForwardSelection(线性向前搜索);算法描述:特征子集X从空集开始,每次选择一个特征x加入特征子集X,使得特征函数J(X)最优。简单说就是,每次都选择一个使得评价函数的取值达到最优的特征加入,其实就是一种简单的贪心算法。算法评价:缺点是只能加入特征而不能去除特征。例如:特征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集,然后又将B与C加入,那么特征子集中就包含了多余的特征A。c.向后搜索:FCBFSearch(基于相关性分析的特征选择方法);