聚类分析和判别分析的心得体会

时间：2018-07-08 22:57

聚类分析与判别分析如何结合运用

1.聚类分析与判别分析的区别与联系都是研究分类的，在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。

判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。

如我们对研究的多元数据的特征不熟悉，当然要进行聚类分析，才能考虑判别分析问题。

2.聚类分析分两种：Q型聚类（对样本的聚类），P型聚类（对变量的聚类）聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法）。

需要根据统计量判断分几类比较合适，一般用R平方统计、伪F统计量等。

如用前者时，可以从R平方的变换看n个样品分成几类比较合适，如分为5类时，R平方为0.9，当分为四类时，其值减小较快，如R平方为0.4，则认为分五类比较合适。

另外，不同的分类方法产生的分类结果可能不同，要结合实际情况选出最优的分类方法。

3.判别分析有Fisher判别，Bayes判别和逐步判别。

一般用Fisher判别即可，要考虑概率及误判损失最小的用Bayes判别，但变量较多时，一般先进行逐步判别筛选出有统计意义的变量，再结合实际情况选择用哪种判别方法。

聚类分析与判别分析的区别

聚类分析是无监督分类，不知道数据点的类别标签，需要自己自动分出来来，简单说就是一堆东西混到一起了，你要把它们区分开来谁和谁是一类的；判别分析是有监督的，本身已经知道每个数据点属于哪个类，它的任务是找到最佳的分类方法，也就是在你这种分类方法下分类的分类效果是最佳的(通常是指错分最少)。

聚类分析与判别分析的区别

武汉学刊2006年第1期经济研究聚类分析与判别分析的区别邓海燕上世纪60年代末到70年代初，人们把大量因变量的各个类别。

精力集中于发展和应用数字分类法，且将这类方二、聚类分析与判别分析的区别法应用于自然资源、土壤剖面、气候分类、环境生1、基本思想不同态等数据，形成“数字分类学”学科。

聚类分析和判（1）聚类分析的基本思想别分析就是这样的分类方法，目前它们已经成为我们所研究的样品或指标（变量）之间存在程比较标准的数据分类方法。

度不同的相似性（亲疏关系），于是根据一批样品我们常说“物以类聚、人以群分”，就是聚类分的多个观测指标，具体找出一些能够度量样品或析和判别分析最简单、最朴素的阐释，并且这一成指标之间相似程度的统计量，以这些统计量作为语也道明了这两种方法的区别与联系，都是分类划分的依据。

把一些相似程度较大的样品（或技术，但它们是分别从不同的角度来对事物分类指标）聚合为一类，把另外一些相似程度较大的样的，或者说，是两种互逆的分类方式。

聚类分析与品（或指标）又聚合为另一类；关系密切的聚合到判别分析都是多元统计中研究事物分类的基本方一个小的分类单位，关系疏远的聚合到一个大的法，但二者却存在着较大的差异。

分类单位，直到把所有的样品（或指标）聚合完毕。

一、聚类分析与

想问下，聚类分析，判别分析，因子分析，主成分分析和对应分析各自的使用条件是什么

打开SPSS：Analysis→Classify →Discriminant:Variables: ndependent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups,Territorial map) Display (Summary table) Statistics: Descriptive (Means) Function Coefficients (Fisher’s,Unstandardized) Matrix (Within-groups correlation, Within-groupscovariance, Separate-groups covariance, Total covariance)——输出结果，注意判别函数输出的表Canonical Discriminant Function Coefficients 以及分类结果表 Classification Result

如何判断聚类分析结构的优劣

需要搜集用户的哪些特征

聚类分析变量选择的原则是：在哪些变量组合的前提，使得类别内部的差异尽可能的小，即同质性高，类别间的差异尽可能的大，即同质性低，并且变量之间不能存在高度相关。

常用的用户特征变量有：① 人口学变量：如年龄、性别、婚姻、教育程度、职业、收入等。

通过人口学变量进行分类，了解每类人口的需求有何差异。

② 用户目标：如用户为什么使用这个产品

为什么选择线上购买

了解不同使用目的的用户的各自特征，从而查看各类目标用户的需求。

③ 用户使用场景：用户在什么时候，什么情况下使用这个产品

了解用户在各类场景下的偏好\\\/行为差异。

④ 用户行为数据：如使用频率，使用时长，客单价等。

划分用户活跃等级，用户价值等级等。

⑤ 态度倾向量表：如消费偏好，价值观等，看不同价值观、不同生活方式的群体在消费取向或行为上的差异。

需要多少样本量

没有限制，通常情况下与实际应用有关，如果非要加一个理论的限制，通常认为，样本的个数要大于聚类个数的平方。

①如果需要聚类的数据量较少（lt;100），那么三种方法(层次聚类法，K-均值聚类法，两步聚类法)都可以考虑使用。

优先考虑层次聚类法，因为层次聚类法产生的树状图更加直观形象，易于解释，并且，层次聚类法提供方法、距离计算方式、标准化方式的丰富程度也是其他两种方法所无法比拟的。

②如果需要聚类的数据量较大（;1000），应该考虑选择快速聚类别法或者两步聚类法进行。

③如果数据量在100～1000之间，理论上现在的计算条件是可能满足任何聚类方法的要求的，但是结果的展示会比较困难，例如不可能再去直接观察树状图了。

应用定量方法还是定性方法

聚类分析是一种定量分析方法，但对聚类分析结果的解释还需要结合定性资料讨论。

1.聚类分析的定义与用途聚类分析（Cluster Analysis）是一种探索性的数据分析方法，根据指标\\\/变量的数据结构特征，对数据进行分类，使得类别内部的差异尽可能的小，即同质性高，类别间的差异尽可能的大，即同质性低。

2.聚类分析的方法①层次聚类法（Hierarchical），也叫系统聚类法。

既可处理分类变量，也可处理连续变量，但不能同时处理两种变量类型，不需要指定类别数。

聚类结果间存在着嵌套，或者说层次的关系。

②K-均值聚类法（K-Means Cluster），也叫快速聚类法。

针对连续变量，也可处理有序分类变量，运算很快，但需要指定类别数。

K-均值聚类法不会自动对数据进行标准化处理，需要先自己手动进行标准化分析。

③两步聚类法（Two-Step Cluster）：可以同时处理分类变量和连续变量，能自动识别最佳的类别数，结果比较稳定。

如果只对连续变量进行聚类，描述记录之间的距离性时可以使用欧氏（Euclidean）距离，也可以使用对数似然值（Log-likelihood），如果使用前者，则该方法和传统的聚类方法并无太大区别；但是若进行聚类的还有离散变量，那么就只能使用对数似然值来表述记录间的差异性。

当聚类指标为有序类别变量时，Two-Step Cluster出来的分类结果没有K-means cluster的明晰，这是因为K-means算法假定聚类指标变量为连续变量。

3.聚类分析的步骤①确定研究目的：研究问题关注点有哪些、是否有先验分类数…②问卷编制：态度语句李克特项目、有序类别…③确定分析变量：问卷变量的类型，连续or分类，有序类别or无序类别、是否纳入后台数据，变量间相关性低…④聚类分析：聚类分析方法选择、数据标准化方法、聚类类别数确定…⑤结果检验：类别间差异分析、是否符合常理…⑥聚类结果解释：类别的命名、类别间的差异、结合定性资料解释…