传统数据挖掘技术-第一文库 | 海量文档资源下载与分享平台

免费试读已结束，剩余 24 页请下载文档后查看

10 金币

下载此文档

/ 34

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

5.1传统的统计分析类数据挖掘技术5.1传统的统计分析类数据挖掘技术5.1.3柱状图数据挖掘技术5.1.3柱状图数据挖掘技术5.1.4线性回归数据挖掘技术5.1.5非线性回归数据挖掘技术5.1.6聚类数据挖掘技术5.1.6聚类数据挖掘技术BIRCH算法主要分两个阶段进行：阶段一：扫描数据库，建立一个初始的CF树，看作一个数据的多层压缩，试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点（子聚类）中时，如果在插入对象后，存储在叶节点中子聚类的直径大于阀值，那么该叶节点被分裂，也可能有其他节点被分裂。新对象插入后，关于该对象的信息向根节点传递。通过修改阀值，CF树的大小可以改变。阶段二：采用某个聚类算法对CF树的叶节点进行聚类。BIRCH算法具有可伸缩性，通过对数据集的首次扫描产生一个基本聚类，二次扫描则进一步改进聚类质量并处理孤立点。BIRCH算法处理速度较快，只是对非球形簇处理效果不好。CURE算法的主要步骤如下：⑴从源数据集中抽取一个随机样本S。⑵将样本S划分为一组划分。⑶对每个划分进行局部的聚类。⑷通过随机抽样剔除孤立点。如果一个簇增长太慢，就删除该簇。⑸对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动。这些点代表了簇的形状。⑹用相应的簇标签来标记数据。3.划分聚类k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。⑴首先将所有对象随机分配到k个非空的簇中。⑵计算每个簇的平均值，并用该平均值代表相应的簇。⑶根据每个对象与各个簇中心的距离，分配给最近的簇。⑷然后转第二步，重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。k-中心点算法每个簇用接近聚类中心的一个对象来表示。首先为每个簇选择一个代表对象，剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象，以提高聚类的质量。4.密度聚类DBSCAN算法首先需要用户给定聚类对象的半径ε-邻域和ε-邻域中最少要包含的对象数MitPts。然后算法检查某个对象ε-邻域中的对象数，如果对象数大于MitPts，该对象就是核心对象，就构建以该对象为核心的新簇。然后反复寻找从这些核心对象出发在ε-邻域内的对象，这个寻找过程可能会合并一些簇，直到没有新的对象可以添加到任何簇中为止。4.密度聚类OPTICS算法是对DBSCAN算法的改进，因为在DBSCAN算法中需要用户设定ε-邻域和MitPts，但是在实际应用中用户往往很难确定这些参数，而且这些参数设置的不同往往会导致聚类结果有很大差别。在OPTICS算法中认定对象应该以特定的顺序进行处理，这个顺序首先处理最小的ε值密度可达的对象，这样可以首先完成高密度的聚类。4.密度聚类DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟，这个函数为影响函数。所聚类数据空间的整体密度看成是所有数据点影响函数的总和。在聚类时就根据全局密度函数的局部最大，即密度吸引点来确定。5.网格聚类STING算法将数据空间区域划分为矩形单元，并且对应于不同级别的分辨率，存在着不同级别的矩形单元，高层的每个单元被分为多个低一层的单元，每个网络单元的统计信息被预先计算和存储，供处理和查询使用。5.网格聚类利用STING算法可以自顶向下回答查询：⑴从层次中选定一层（含较少单元的层次）作为查询处理的开始。⑵对当前层次的每个单元计算置信区间，用以反映该网格单元与给定查询的关联程度。⑶当前层次处理完毕，转入下一层次，处理下一层次时只检查处理相关单元。⑷重复以上过程，直到底层处理完毕。如果查询要求满足，就返回相关单元的区域，否则检索和进一步处理相关单元中的数据，直到满足查询要求为止。5.网格聚类WaveCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据，每个网格单元汇总了一组映射到该单元中的点的信息，然后采用一种小波变换对原特征空间进行变换，汇总信息在进行小波变换时使用，接着在变换后的空间中找到聚类区域。小波变换的聚类是无监督聚类，不用事先假定聚类的形状，可以发现任意形状的聚类，边界弱信号不会被屏蔽，可以剔除孤立点，本身运算开销不大。5.网格聚类基于网格和密度的聚类CLIQUE算法主要步骤是：⑴将数据空间划分为互不相交的长方形单元，记录每个单元中的对象数。⑵用先验性质识别包含簇的子空间。⑶在符合兴趣度的子空间中先找出密集单元，再找出相连接的密集单元，以识别簇。⑷为每个簇生成最小化的描述。5.1.7最近邻数据挖掘技术基本概念是：相互之间“接近”的对象具有相似的预测值。如果，你知道了其中一个对象的预测值后，就可以用它来预测其最近的邻居对象。5.2统计分析类工具5.2.2统计类数据