一文读懂层次聚类(Python代码)

2021年11月22日 阅读数:15
这篇文章主要向大家介绍一文读懂层次聚类(Python代码),主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

你们好,我是东哥。python

本篇想和你们介绍下层次聚类,先经过一个简单的例子介绍它的基本理论,而后再用一个实战案例Python代码实现聚类效果。git

首先要说,聚类属于机器学习的无监督学习,并且也分不少种方法,好比你们熟知的有K-means。层次聚类也是聚类中的一种,也很经常使用。下面我先简单回顾一下K-means的基本原理,而后慢慢引出层次聚类的定义和分层步骤,这样更有助于你们理解。github

层次聚类和K-means有什么不一样?

K-means 工做原理能够简要概述为:算法

  • 决定簇数(k)
  • 从数据中随机选取 k 个点做为质心
  • 将全部点分配到最近的聚类质心
  • 计算新造成的簇的质心
  • 重复步骤 3 和 4

这是一个迭代过程,直到新造成的簇的质心不变,或者达到最大迭代次数。segmentfault

可是 K-means 是存在一些缺点的,咱们必须在算法开始前就决定簇数 K 的数量,但实际咱们并不知道应该有多少个簇,因此通常都是根据本身的理解先设定一个值,这就可能致使咱们的理解和实际状况存在一些误差。 机器学习

层次聚类彻底不一样,它不须要咱们开始的时候指定簇数,而是先完整的造成整个层次聚类后,经过决定合适的距离,自动就能够找到对应的簇数和聚类。ide

什么是层次聚类?

下面咱们由浅及深的介绍什么是层次聚类,先来一个简单的例子。学习

假设咱们有如下几点,咱们想将它们分组:idea

咱们能够将这些点中的每个分配给一个单独的簇,就是4个簇(4种颜色):spa

而后基于这些簇的类似性(距离),将最类似的(距离最近的)点组合在一块儿并重复这个过程,直到只剩下一个集群:

上面本质上就是在构建一个层次结构。先了解到这里,后面咱们详细介绍它的分层步骤。

层次聚类的类型

主要有两种类型的层次聚类:

  • 凝聚层次聚类
  • 分裂层次聚类

凝聚层次聚类

先让全部点分别成为一个单独的簇,而后经过类似性不断组合,直到最后只有一个簇为止,这就是凝聚层次聚类的过程,和咱们上面刚刚说的一致。

分裂层次聚类

分裂层次聚类正好反过来,它是从单个集群开始逐步分裂,直到没法分裂,即每一个点都是一个簇。

因此不管是 十、100、1000 个数据点都不重要,这些点在开始的时候都属于同一个簇:

如今,在每次迭代中拆分簇中相隔最远的两点,并重复这个过程,直到每一个簇只包含一个点:

上面的过程就是分裂层次聚类

执行层次聚类的步骤

上面已经说了层次聚类的大概过程,那关键的来了,如何肯定点和点的类似性呢?

这是聚类中最重要的问题之一了,通常计算类似度的方法是:计算这些簇的质心之间的距离。距离最小的点称为类似点,咱们能够合并它们,也能够将其称为基于距离的算法

另外在层次聚类中,还有一个称为邻近矩阵的概念,它存储了每一个点之间的距离。下面咱们经过一个例子来理解如何计算类似度、邻近矩阵、以及层次聚类的具体步骤。

案例介绍

假设一位老师想要将学生分红不一样的组。如今有每一个学生在做业中的分数,想根据这些分数将他们分红几组。关于拥有多少组,这里没有固定的目标。因为老师不知道应该将哪一种类型的学生分配到哪一个组,所以不能做为监督学习问题来解决。下面,咱们将尝试应用层次聚类将学生分红不一样的组。

下面是个5名学生的成绩:

建立邻近矩阵

首先,咱们要建立一个邻近矩阵,它储存了每一个点两两之间的距离,所以能够获得一个形状为 n X n 的方阵。

这个案例中,能够获得如下 5 x 5 的邻近矩阵:

矩阵里有两点须要注意下:

  • 矩阵的对角元素始终为 0,由于点与其自身的距离始终为 0
  • 使用欧几里得距离公式来计算非对角元素的距离

好比,咱们要计算点 1 和 2 之间的距离,计算公式为:

$$ \sqrt{(10-7)^2}=\sqrt{9}=3 $$

同理,按此计算方法完成后填充邻近矩阵其他元素。

执行层次聚类

这里使用凝聚层次聚类来实现。

步骤 1: 首先,咱们将全部点分配成单个簇:

这里不一样的颜色表明不一样的簇,咱们数据中的 5 个点,即有 5 个不一样的簇。

步骤2: 接下来,咱们须要查找邻近矩阵中的最小距离并合并距离最小的点。而后咱们更新邻近矩阵:

最小距离是 3,所以咱们将合并点 1 和 2:

让咱们看看更新的集群并相应地更新邻近矩阵:

更新以后,咱们取了一、2 两个点中值 (7, 10) 最大的来替换这个簇的值。固然除了最大值以外,咱们还能够取最小值或平均值。而后,咱们将再次计算这些簇的邻近矩阵:

第 3 步: 重复第 2 步,直到只剩下一个簇。

重复全部的步骤后,咱们将获得以下所示的合并的聚类:

这就是凝聚层次聚类的工做原理。但问题是咱们仍然不知道该分几组?是二、三、仍是4组呢?

下面开始介绍如何选择聚类数。

如何选择聚类数?

为了得到层次聚类的簇数,咱们使用了一个概念,叫做树状图

经过树状图,咱们能够更方便的选出聚类的簇数。

回到上面的例子。当咱们合并两个簇时,树状图会相应地记录这些簇之间的距离并以图形形式表示。下面这个是树状图的原始状态,横坐标记录了每一个点的标记,纵轴记录了点和点之间的距离:

当合并两个簇时,将会在树状图中链接起来,链接的高度就是点之间的距离。下面是咱们刚刚层次聚类的过程。

而后开始对上面的过程进行树状图的绘制。从合并样本 1 和 2 开始,这两个样本之间的距离为 3。

能够看到已经合并了 1 和 2。垂直线表明 1 和 2 的距离。同理,按照层次聚类过程绘制合并簇类的全部步骤,最后获得了这样的树状图:

经过树状图,咱们能够清楚地形象化层次聚类的步骤。树状图中垂直线的距离越远表明簇之间的距离越大。

有了这个树状图,咱们决定簇类数就方便多了。

如今咱们能够设置一个阈值距离,绘制一条水平线。好比咱们将阈值设置为 12,并绘制一条水平线,以下:

从交点中能够看到,聚类的数量就是与阈值水平线与垂直线相交的数量(红线与 2 条垂直线相交,咱们将有 2 个簇)。与横坐标相对应的,一个簇将有一个样本集合为 (1,2,4),另外一个集群将有一个样本集合 (3,5)。

这样,咱们就经过树状图解决了分层聚类中要决定聚类的数量。

Python代码实战案例

上面是理论基础,有点数学基础都能看懂。下面介绍下在如何用代码Python来实现这一过程。这里拿一个客户细分的数据来展现一下。

数据集和代码在这里:

https://github.com/xiaoyusmd/...

分享不易,以为有帮助还请给个star!

这个数据来源于UCI 机器学习库。咱们的目的是根据批发分销商的客户在不一样产品类别(如牛奶、杂货、地区等)上的年度支出,对他们进行细分。

首先对数据进行一个标准化,为了让全部数据在同一个维度便于计算,而后应用层次聚类来细分客户。

from sklearn.preprocessing import normalize
data_scaled = normalize(data)
data_scaled = pd.DataFrame(data_scaled, columns=data.columns)

import scipy.cluster.hierarchy as shc
plt.figure(figsize=(10, 7))  
plt.title("Dendrograms")  
dend = shc.dendrogram(shc.linkage(data_scaled, method='ward'))

x 轴包含了全部样本,y 轴表明这些样本之间的距离。距离最大的垂直线是蓝线,假如咱们决定要以阈值 6 切割树状图:

plt.figure(figsize=(10, 7))  
plt.title("Dendrograms")  
dend = shc.dendrogram(shc.linkage(data_scaled, method='ward'))
plt.axhline(y=6, color='r', linestyle='--')

如今咱们有两个簇了,咱们要对这 2 个簇应用层次聚类:

from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')  
cluster.fit_predict(data_scaled)

因为咱们定义了 2 个簇,所以咱们能够在输出中看到 0 和 1 的值。0 表明属于第一个簇的点,1 表明属于第二个簇的点。

plt.figure(figsize=(10, 7))  
plt.scatter(data_scaled['Milk'], data_scaled['Grocery'], c=cluster.labels_) 

到这里咱们就成功的完成了聚类。

参考: https://www.analyticsvidhya.c...

原创不易,以为不错点个赞。

另外,欢迎关注个人原创公众号:Python数据科学