聚类分析法与回归分析、判别分析一起被称为多元分析的三大方法。聚类分析是一种理想的多变量统计技术,主要包括分层聚类法和迭代聚类法。在聚类分析中,也被称为群分析或点群分析,其核心思想是直接比较各事物之间的*质,将相似*较高的归为一类,而将*质差异较大的划分为不同类别。
举例来说,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特*功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,并比较各银行之间不同等级网点的数量对比情况。
聚类分析的基本思想是,研究的样品(或指标)之间存在着不同程度的相似*,其相似程度可通过样品间的距离来衡量。通过多个观测指标,找出能够度量样品或指标相似程度的统计量,以此为依据进行分类。将相似程度较大的样品聚合为一类,直到将所有样品聚合完毕,这便是分类的基本思想。
聚类分析的应用领域包括:
对不同地区城镇居民收入和消费状况进行分类研究。
分析区域经济及社会发展水平,进行全国区域经济综合评价。
在儿童生长发育研究中,将形态学指标和机能指标分为不同类别。
在聚类分析中,通常可分为Q型聚类分析和R型聚类分析两大类。其中,R型聚类分析是对变量进行分类处理,而Q型聚类分析是对样本进行分类处理。
R型聚类分析的主要作用包括:
了解个别变量之间的关系强弱,以及各个变量组合之间的关系。
根据变量的分类结果和它们之间的关系,选择主要变量进行回归分析或Q型聚类分析。
Q型聚类分析的主要特点包括:
可综合利用多个变量的信息对样本进行分类。
分类结果直观,聚类谱系图清晰展现数值分类结果。
分析结果更细致、全面、合理,相较传统分类方法更具优势。
进行聚类分析时,首先需要定义样品间的距离。常见的距离包括绝对值距离、欧氏距离、明科夫斯基距离和切比雪夫距离。聚类分析的几种方法包括直接聚类法、最短距离聚类法和最远距离聚类法。