聚类分析心得体会

时间：2019-03-08 18:56

聚类分析树状图如何看

聚类算法研究及比较框架　　聚类算法一般有五种方法，最主要的是划分方法和层次方法两种。

划分聚类算法通过优化评价函数把数据集分割为K个部分，它需要K作为输人参数。

典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。

层次聚类由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。

它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。

典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

　　对各聚类算法的比较研究基于以下5个标准：　　① 是否适用于大数据量，算法的效率是否满足大数据量高复杂性的要求;　　② 是否能应付不同的数据类型，能否处理符号属性;　　③ 是否能发现不同类型的聚类;　　④ 是否能应付脏数据或异常数据;　　⑤ 是否对数据的输入顺序不敏感。

　　下面将在该框架下对各聚类算法作分析比较。

数据挖掘常用聚类算法比较分析 3.1 K-pototypes算法　　K-pototypes算法结合了K-means方法和根据K-means方法改进的能够处理符号属性的K-modes方法，同K-means方法相比，K-pototypes 算法能够处理符号属性。

　　3.2 CLARANS算法（划分方法）　　CLARANS算法即随机搜索聚类算法，是一种分割聚类方法。

它首先随机选择一个点作为当前点，然后随机检查它周围不超过参数Maxneighbor 个的一些邻接点，假如找到一个比它更好的邻接点，则把它移人该邻接点，否则把该点作为局部最小量。

然后再随机选择一个点来寻找另一个局部最小量，直至所找到的局部最小量数目达到用户要求为止。

该算法要求聚类的对象必须都预先调人内存，并且需多次扫描数据集，这对大数据量而言，无论时间复杂度还是空间复杂度都相当大。

虽通过引人R-树结构对其性能进行改善，使之能够处理基于磁盘的大型数据库，但R*-树的构造和维护代价太大。

该算法对脏数据和异常数据不敏感，但对数据物人顺序异常敏感，且只能处理凸形或球形边界聚类。

　　3.3 BIRCH算法（层次方法）　　BIRCH算法即平衡迭代削减聚类法，其核心是用一个聚类特征3元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征，而不必用具体的一组点来表示。

它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。

BIRCH算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。

算法的聚类特征树是一个具有两个参数分枝因子B和类直径T的高度平衡树。

分枝因子规定了树的每个节点子女的最多个数，而类直径体现了对一类点的直径大小的限制即这些点在多大范围内可以聚为一类，非叶子结点为它的子女的最大关键字，可以根据这些关键字进行插人索引，它总结了其子女的信息。

　　聚类特征树可以动态构造，因此不要求所有数据读人内存，而可以在外存上逐个读人。

新的数据项总是插人到树中与该数据距离最近的叶子中。

如果插人后使得该叶子的直径大于类直径T，则把该叶子节点分裂。

其它叶子结点也需要检查是否超过分枝因子来判断其分裂与否，直至该数据插入到叶子中，并且满足不超过类直径，而每个非叶子节点的子女个数不大于分枝因子。

算法还可以通过改变类直径修改特征树大小，控制其占内存容量。

　　BIRCH算法通过一次扫描就可以进行较好的聚类，由此可见，该算法适合于大数据量。

对于给定的M兆内存空间，其空间复杂度为O(M)，时间间复杂度为O(dNBlnB(M\\\/P)).其中d为维数,N为节点数,P为内存页的大小，B为由P决定的分枝因子。

I\\\/O花费与数据量成线性关系。

BIRCH算法只适用于类的分布呈凸形及球形的情况，并且由于BIRCH算法需提供正确的聚类个数和簇直径限制，对不可视的高维数据不可行。

　　3.4 CURE算法（层次方法）　　CURE算法即使用代表点的聚类方法。

该算法先把每个数据点看成一类，然后合并距离最近的类直至类个数为所要求的个数为止。

CURE算法将传统对类的表示方法进行了改进，回避了用所有点或用中心和半径来表示一个类，而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点，并将这些点乘以一个适当的收缩因子，使它们更靠近类的中心点。

将一个类用代表点表示，使得类的外延可以向非球形的形状扩展，从而可调整类的形状以表达那些非球形的类。

另外，收缩因子的使用减小了嗓音对聚类的影响。

CURE算法采用随机抽样与分割相结合的办法来提高算法的空间和时间效率，并且在算法中用了堆和K-d树结构来提高算法效率。

　　3.5 DBSCAN算法（基于密度的方法）　　DBSCAN算法即基于密度的聚类算法。

该算法利用类的密度连通性可以快速发现任意形状的类。

其基本思想是：对于一个类中的每个对象，在其给定半径的领域中包含的对象不能少于某一给定的最小数目。

在DBSCAN算法中，发现一个类的过程是基于这样的事实：一个类能够被其中的任意一个核心对象所确定。

为了发现一个类，DBSCAN先从对象集D中找到任意一对象P，并查找D中关于关径Eps和最小对象数Minpts的从P密度可达的所有对象。

如果P是核心对象，即半径为Eps的P的邻域中包含的对象不少于Minpts,则根据算法，可以找到一个关于参数Eps和Minpts的类。

如果P是一个边界点，则半径为Eps的P邻域包含的对象少于Minpts，P被暂时标注为噪声点。

然后，DBSCAN处理D中的下一个对象。

　　密度可达对象的获取是通过不断执行区域查询来实现的。

一个区域查询返回指定区域中的所有对象。

为了有效地执行区域查询，DBSCAN算法使用了空间查询R-树结构。

在进行聚类前，必须建立针对所有数据的R*-树。

另外，DBSCAN要求用户指定一个全局参数Eps(为了减少计算量，预先确定参数 Minpts)。

为了确定取值，DBSCAN计算任意对象与它的第k个最临近的对象之间的距离。

然后，根据求得的距离由小到大排序，并绘出排序后的图，称做k-dist图。

k-dist图中的横坐标表示数据对象与它的第k个最近的对象间的距离；纵坐标为对应于某一k-dist距离值的数据对象的个数。

R*-树的建立和k-dist图的绘制非常消耗时间。

此外，为了得到较好的聚类结果，用户必须根据k-dist图，通过试探选定一个比较合适的Eps值。

DBSCAN算法不进行任何的预处理而直接对整个数据集进行聚类操作。

当数据量非常大时，就必须有大内存量支持，I\\\/O消耗也非常大。

其时间复杂度为 O(nlogn)(n为数据量)，聚类过程的大部分时间用在区域查询操作上。

DBSCAN算法对参数Eps及Minpts非常敏感，且这两个参数很难确定。

　　　　3.6 CLIQUE算法（综合了基于密度和基于网格的算法）　　CLIQUE算法即自动子空间聚类算法。

该算法利用自顶向上方法求出各个子空间的聚类单元。

CLUQUE算法主要用于找出在高维数据空间中存在的低维聚类。

为了求出d维空间聚类，必须组合给出所有d-1维子空间的聚类，导致其算法的空间和时间效率都较低，而且要求用户输入两个参数：数据取值空间等间隔距离和密度阔值。

这2个参数与样木数据紧密相关，用户一般难以确定。

CLIQUE算法对数据输人顺序不敏感。

spss聚类分析后得到分组有什么用

分组有什么用是要问你自己为什么要用聚类分析对样本进行分析了。

通常聚类分析都是用于将样本进行归类，所谓物以类聚，就是想将观察的事物进行分来，然后对每类的特性进行总结，从而为后续的其他研究做依据

聚类分析树状图怎么看

从右往左看，最右边，你可以看成是左边有开口的矩形，它有上下两条横线，就是说把样本分为两类，一类是宁夏，一类是其它地区再往左走，出现了一个节点，再往左一点，原来的一条横线分成了两条，加上原来的那条，一共是三条，就是说分为三类，是宁夏，甘肃，其它地区再往左，有四条，就是分四类，宁夏是第一类，甘肃是第二类，海南和新疆是第三类，其它是第四类再往左，就是分五类，分别是宁夏，甘肃，新疆，海南，其它地区就是这样以此类推，你想要分几类，就找几条横线，这个往左到最后就是每个样本归为一类。

求大神指导，聚类分析、数据挖掘、关联规则这几个概念中到底是什么关系。
谢谢

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题，聚类分析是无监督的发现数据间的聚簇效应。

关联规则是从统计上发现数据间的潜在联系。

应用心理学考研真题求高人指点
论述：试比较探索性因素分析与聚类分析

缩短一个单元的机械记忆时间，不停地轮回的记忆，尤其遇到易混淆的、真题中常见的，就用笔记本记下来，整个轮回记单词过程持续到考试前一周。

从对旅游地理学学术论文的文献分析中，能解读出哪些内容

选取1979～2012年发表在国内11种地理类和3种旅游类期刊上的6785篇旅游地理类文献的题录信息,采用文献计量法对文献的外部形式特征进行统计,在对文献产出时间分布分析时对学科发展阶段进行划分.文章采用共词分析法并结合社会网络分析软件绘制了我国旅游地理学知识网络图,结合聚类分析和多维尺度分析得出学科知识网络的六大研究主题结构;运用反距离权重插值分析总结了我国旅游地理学研究案例地选择规律,并对研究方法进行概括性总结.通过研究各阶段知识网络、高频关键词揭示了中国旅游地理学阶段性演进特征即在传承与深化中不断地创新.研究既弥补了2004年以来我国旅游地理学文献分析的空白,又揭示了我国旅游地理学自系统研究以来知识网络结构及演变特征.