距离度量

样本点之间的距离

属性u上，值为a，b的 VDM 距离
$$ VDM(a,b)_p = \sum_{i=1}^{k} \left| \frac{m_{u,a,i}}{m_{u,a}} - \frac{m_{u,b,i}}{m_{u,b}} \right|^p $$

最小距离
$$ \text{dist}_{\min}(C_i,C_j) = \min_{x\in C_i,y\in C_j} \text{dist}(x,y) $$
最大距离
$$ \text{dist}_{\max}(C_i,C_j) = \max_{x\in C_i,y\in C_j} \text{dist}(x,y) $$
平均距离
$$ \text{dist}_{\text{avg}}(C_i,C_j) = \frac{1}{|C_i||C_j|}\sum_{x\in C_i}\sum_{y\in C_j}\text{dist}(x,y) $$
中心距离
$$ \text{dist}_{\text{cen}}(C_i,C_j) = \text{dist}(\mu_i,\mu_j) \quad \mu=\frac{1}{|C|}\sum_{i=1}^{|C|} x_i $$

类的平均距离
$$ \text{avg}(C) = \frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq |C|} \text{dist}(x_i,x_j) $$
类的直径
$$ \text{diam}(C) = \max_{1\leq i<j\leq |C|} \text{dist}(x_i,x_j) $$
指数
$$ \text{DBI} = \frac{1}{k} \sum_{i=1}^k \max_{j \neq i}\left( \frac{avg(C_i)+avg(C_j)}{\text{dist}_{\text{cen}}(C_i,C_j)}\right) $$

$$ a = |SS|, \quad SS = \{ (x_i, x_j) \; | \; \lambda_i=\lambda_j, \; \lambda_i^*=\lambda_j^*, \; i<j \} $$

$$ b = |SD|, \quad SS = \{ (x_i, x_j) \; | \; \lambda_i=\lambda_j, \; \lambda_i^*\neq\lambda_j^*, \; i<j \} $$

$$ c = |DS|, \quad SS = \{ (x_i, x_j) \; | \; \lambda_i\neq\lambda_j, \; \lambda_i^*=\lambda_j^*, \; i<j \} $$

$$ d = |DD|, \quad SS = \{ (x_i, x_j) \; | \; \lambda_i\neq\lambda_j, \; \lambda_i^*\neq\lambda_j^*, \; i<j \} $$

1
2
3

from sklearn.datasets import make_blobs
data, label = make_blobs(n_samples=1000, n_features=2, centers=5, random_state=1)

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=5).fit_predict(data)
pyplot.scatter(data[:, 0], data[:, 1], c=y_pred)
pyplot.show()