一、研究背景与问题定义研究缺口深度学习在图像、文本等领域取得了巨大成功但在表格数据的聚类分析上传统方法如K-Means、GMM仍然是主流。现有的深度聚类方法主要针对图像数据设计依赖CNN、假设t分布、处理均匀像素不适用于具有异构特征、样本量较小、维度较低的表格数据。核心挑战表格数据的特征异质性强缺乏图像数据的空间规律性。表格数据普遍存在聚类不平衡问题少数类可能被多数类吞并。现有方法大多假设t分布聚类且依赖K-Means等传统算法进行辅助没有专门为表格数据设计的端到端深度聚类框架。二、提出方法G-CEALS本文提出了首个专门针对表格数据的深度聚类框架——G-CEALSGaussian Cluster Embedding in Autoencoder Latent Space。其核心创新点包括用多元高斯分布替代t分布不同于DEC等方法使用的t分布仅由质心参数化G-CEALS使用多元高斯分布来建模聚类可以同时学习聚类质心μ和协方差矩阵Σ从而更好地刻画聚类的形状和方差。引入可训练的聚类权重ω为每个聚类学习独立的权重用于处理聚类不平衡问题避免少数聚类在训练中被合并。动态目标分布不同于传统方法使用固定的闭式目标分布G-CEALS独立定义并动态更新聚类分布P和目标分布Q使用交叉熵损失进行优化。端到端联合优化联合优化自编码器的重建损失和聚类模块的聚类损失同时学习对聚类友好的嵌入和聚类分配无需借助外部传统聚类算法。三、关键技术策略早停机制监控聚类权重ω当任一权重低于1/(2K)时停止训练防止少数聚类被合并。平衡小批量采样为保证训练时每个批次都包含所有聚类的样本从少数聚类中采样相同数量的样本与其他聚类组合避免因数据不平衡导致训练偏差。四、实验设置与结果数据集使用16个来自OpenML的多样化表格数据集涵盖不同特征类型、样本量、特征-样本比F-S比和特征相关性C-score。基线方法对比了9种最先进的聚类方法包括传统K-Means、GMM以及深度方法DEC、IDEC、DEPICT、DCN、AE-CM、DKM、DynAE。评估指标聚类准确率ACC和调整兰德指数ARI。主要结果排名最优G-CEALS在16个数据集上的平均排名为ACC 2.91.7ARI 2.81.7显著优于所有基线方法。处理不平衡有效与其他方法如AE-CM在ARI上接近零或出现负值不同G-CEALS在所有数据集上的ARI均为正表明其对聚类不平衡问题的处理更稳健。计算效率相比DCN、AE-CM等深度聚类方法G-CEALS的训练时间仅为其1/3到1/5在合理计算成本下获得显著更高的聚类准确率最高提升64%。鲁棒性在不同特征类型数值/分类、F-S比、C-score的数据集上均表现稳定超参数γ在较宽范围内性能稳定。五、研究意义与结论填补空白这是第一个专门针对表格数据的深度聚类方法打破了图像驱动方法直接迁移的局限性。取代传统方法证明了深度学习方法可以在表格数据上超越K-Means、GMM等传统方法克服了“传统机器学习仍优于深度学习”的普遍观点。实践价值为电子健康记录EHR、患者风险分层、缺失值插补等实际应用提供了更强大的无监督分析工具。未来方向仍需改进对严重不平衡聚类的算法处理、自动化的模型选择嵌入维度、网络架构以及更稳健的学习目标设计。文章提出了G-CEALS首个面向表格数据的深度聚类框架通过可训练的多元高斯分布、动态聚类权重和平衡采样策略在16个真实表格数据集上取得了最优的聚类准确率和鲁棒性显著超越了传统聚类和现有图像驱动的深度聚类方法。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要深度学习方法主要用于图像或文本的监督学习在聚类问题上的应用有限。相比之下具有异构特征的表格数据在表示学习方面提出了独特的挑战深度学习尚未能取代传统的机器学习。本文通过开发首个针对表格数据的深度聚类方法之一自编码器潜在空间中的高斯聚类嵌入G-CEALS来应对这些挑战。G-CEALS 是一个无监督深度聚类框架通过迭代更新各个聚类权重来学习多元高斯聚类分布的参数。基于在十六个表格数据集上的聚类准确率和调整兰德指数ARI分数G-CEALS 方法分别呈现了 2.9(1.7) 和 2.8(1.7) 的平均排名并且优于九种最先进的聚类方法。与仍然是表格数据聚类的实际常用方法的传统 K-means 和 GMM 相比G-CEALS 显著提高了聚类性能。为了在表格数据上收获深度学习的众多好处类似的计算高效且高性能的深度聚类框架势在必行。关键词表格数据深度聚类嵌入聚类多元高斯自编码器。1 引言深度学习由于其执行并发且高效的表示学习和分类的能力已经在许多数据密集型研究和应用中取代了传统机器学习。这种并发学习方法优于需要手工制作特征进行分类的传统机器学习[1, 2]。然而通过来自真实标签的监督信号进行的表示学习可能容易出现过拟合[3]和对抗性攻击[4]。此外用于监督表示学习和分类的人工标注可能难以获得并且在所有数据领域中都可能无法获取。因此通过深度无监督聚类进行的表示学习可能能够实现对实践中存在的大量未标记数据样本的深度学习。克服监督表示学习局限性的方法之一是通过自监督生成伪标签这不需要人工标注的监督信号[5, 6]。一个自监督的自编码器将输入数据信息保存在低维嵌入中以供数据重建。然而由数据重建目标产生的嵌入可能不是下游分类或聚类任务的最优表示[7]。因此深度学习方法已与聚类算法联合优化以获得对聚类友好的表示[8, 9, 10, 11, 12]。现有的嵌入聚类方法在联合优化中使用传统的聚类算法例如 k-means假设 t-分布簇并在图像数据集上进行基准测试。虽然使用卷积神经网络CNN对图像进行深度表示学习已有深入研究但对于具有异构特征空间的表格数据类似的方法尚未得到很好的发展。文献中有强有力的证据表明在表格数据的监督学习中传统机器学习优于深度模型[13, 14, 15, 16, 17]。然而根据最近关于深度聚类的综述[18]尚未提出用于聚类表格数据的深度学习方法。本文回顾了嵌入聚类文献中的假设以提出一种新颖的表格数据深度聚类方法。2 相关工作最近的一篇综述文章回顾了针对图像、文本、视频和图数据的深度聚类方法但没有列举应用于表格数据集的例子[18]。最早的嵌入聚类方法之一深度嵌入聚类DEC[8]受到了关于 t-分布随机邻域嵌入t-SNE的开创性工作的启发[19]。DEC 方法首先通过最小化数据重建损失来训练深度自编码器。然后通过最小化嵌入上的 t-分布聚类Q与目标分布P之间的 Kullback-LeiblerKL散度来微调训练好的编码器部分不包括解码器。目标分布是通过对 KL 散度损失关于 P 求导并令其为零而得到的闭式数学表达式。因此在类似的工作中目标分布P也是 t-分布 Q 的函数。后来DEC 方法中的 k-means 聚类被谱聚类取代以根据聚类性能提高嵌入质量[20]。DEC 方法还通过改进的 DECIDEC框架得到了增强[9]。在 IDEC 中自编码器重建和 KL 散度损失被联合最小化以训练预训练的深度自编码器。类似策略包括 t-分布簇、k-means 聚类和 KL 散度损失被用于文本-图像数据对的多模态表示学习的联合嵌入和聚类学习JECL中[21]。通过联合卷积自编码器进行深度聚类DEPICT方法通过去噪自编码器学习图像嵌入[22]。与早期方法不同DEPICT 方法提出了一个带有 softmax 函数的聚类头以获得没有分布假设的软聚类分配。然而他们的方法旨在在聚类不平衡是表格数据常见问题时实现平衡聚类。他们证明了交叉熵损失可以替代 KL 散度来最小化 P 和 Q 分布之间的差异。嵌入聚类文献通常在深度学习框架中使用 k-means 的聚类分配[8, 9, 11, 10, 23, 21, 22]。DEC 方法[8]中提出的 t-分布聚类嵌入假设继续出现在后续研究中[24, 25, 9, 20, 21, 26, 27, 18]。t-分布仅由聚类中心参数化而多元高斯分布可用于同时学习聚类中心和协方差。此外t-分布假设最初是为 t-SNE 数据可视化算法的邻域嵌入而提出的[19]。我们认为用于数据可视化的分布假设可能无法最优地满足聚类的需求。此外最近仅在图像数据集上优化和改进的深度聚类方法可能不适用于具有异构特征空间的表格数据甚至可能不适合[28, 29, 27, 30, 31, 32, 33, 34]。其中一些模型使用基于 CNN 的大型学习架构来聚类大型图像数据集[28, 29, 31]。然而这些大型基于图像的 CNN 架构不适合学习具有异构特征的表格数据集。其中一些方法对选择的多个超参数的值很敏感[31, 34]。在几项研究中类标签被利用来在预训练自编码器时确定提前停止点这可能违反了聚类算法的无监督性质[27, 34]。一些方法还在半监督步骤中使用类标签来执行聚类[32, 33]这可能违背了聚类算法的无监督性质。因此需要针对表格数据、解决这些方法论缺点的深度聚类方法。2.1 贡献据我们所知本文通过解决最先进的深度聚类方法的缺点提出了第一种用于表格数据深度嵌入聚类的方法。首先我们通过提供理论依据用多元高斯分布的混合替代当前对 t-分布嵌入的假设以适应多元表格数据。其次提出了一种新的嵌入聚类算法该算法可以学习聚类嵌入和分配而无需借助传统的聚类方法。第三多元聚类中心和协方差矩阵作为可训练参数进行更新并通过各个聚类权重调整聚类分布以更好地学习不平衡的表格数据。第四深度自编码器使用动态分布目标直接学习聚类分布而不是设置数学上闭式的目标分布或 KL 散度损失。3 理论基础本节提供了与常用的基准图像数据集相比的表格数据的预备知识。我们对为数据可视化提出的邻域嵌入和为聚类所需的深度嵌入进行了多次对比以支撑我们提出的方法。3.1 预备知识表 1 显示了图像数据和表格数据之间的几个重要对比。有人可能会争辩说一些高维序列数据例如基因组学或转换为像素向量的二维图像可以构建在数据表中。然而这些向量表示仍然包含规律性或模式同质性这并不构成表格数据异构性的挑战。因此具有异构特征空间的表格数据无法利用深度学习方法因为不存在类似图像的序列或空间规律性。此外当前文献有选择地使用高维度和大样本量的数据集来证明深度学习方法的有效性[38, 39, 40]。相比之下最常见的表格数据集具有有限的样本量和维度表 1这在深度表示学习中很少被考虑。因此表格数据被认为是深度学习的最后一座未被征服的城堡[16]传统的机器学习方法在面对深度神经网络架构时仍然显得有竞争力[16, 15]。因素图像数据表格数据异质性均匀像素异构变量空间规律性是否样本量大 50,000小中位数 660基准数据集MNIST, CIFAR无数据维度高 1000低中位数 18最佳方法深度 CNN传统机器学习表 1: 图像数据和表格数据之间的对比需要为表格数据设计不同的深度学习架构。中位数样本量和数据维度取自 UCI 机器学习库中下载量最高的 100 个表格数据集[41]。3.2 用于数据可视化的嵌入图 1: 从深度卷积神经网络提取的高维图像特征的二维嵌入引自[42]表 2: 用于数据可视化和聚类的邻域嵌入之间的理论差异。因此在高维中放置在中等距离的数据点会被 t-分布拉得更远以帮助在 2D 空间中进行数据可视化。在聚类嵌入的背景下我们认为低维中点之间的这种额外分离可能会改变它们的聚类分配。这种现象在图 1 中观察到其中高维深度图像特征被映射到 1) t-SNE 和 2) 两个主成分空间。数据点的分散在 t-SNE 映射图 1 (a)中很明显其中出现了一个蓝点在图的左侧其聚类分配被破坏这与 PCA 映射图 1 (b)不同。这一观察结果与表 2 中呈现的数据可视化和聚类之间的对比一致。3.3 用于聚类的嵌入用于聚类的嵌入是通过将聚类分离信息注入深度神经网络的低维潜在空间来实现的。4 提出的方法我们提出了一种新颖的深度聚类方法称为自编码器潜在空间中的高斯聚类嵌入G-CEALS具体如下。首先多元高斯分布取代了广泛使用的 t-分布公式 4。与 t-分布不同高斯分布可以调节聚类的方差或散度。涉及高斯混合模型的深度学习方法以前在异常和错误检测任务中显示出有希望的结果[43, 44]。然而类似的方法尚未针对多个高斯分布或聚类的不平衡进行调整。4.1 优化用于聚类的深度嵌入图 2: 针对表格数据提出的深度聚类框架。一个未标记表格数据集的所有样本用于训练自编码器同时与两个子网络一个聚类模块和一个带有 softmax 输出层的 MLP 头。最终的聚类分布P和分配在聚类模块之后获得。最终的聚类分配使用 ACC、ARI 和 NMI 性能指标进行评估。4.2 聚类不平衡与收敛除了确保训练后的聚类分离外所提出的聚类损失的收敛也很重要。图 3 显示了两种不同 γ 值下聚类损失的平滑收敛。较大的 γ 值1.0加速了收敛。然而较低的 γ 值0.1有助于以较慢的速度实现稳定和平滑的收敛。因此对于需要此超参数的模型选择 γ 值为 0.1。所提出的深度聚类方法在创建聚类分离方面的有效性使用 t-SNE 图在图 4 中可视化。聚类可视化发现了一个问题即在没有提前停止的情况下长时间训练后少数聚类可能会与多数聚类合并。聚类的合并是由于表格数据中的聚类不平衡造成的。我们通过采用两种策略来解决这个问题。首先我们基于聚类权重 ωj​ 的更新实施了一个提前停止标准这是聚类大小的度量。当聚类在训练期间与另一个聚类合并时其权重变为零可以通过设置聚类权重的阈值来防止。当有 K 个平衡聚类时权重初始值为 1/K。当至少一个聚类权重低于 1/K 的 50% 时我们停止训练以防止可能的聚类合并。算法 1提出的 G-CEALS 深度聚类算法1: 输入: d 维表格数据, X ∈ ℝ^{n×d} 2: 输出: 对聚类友好的嵌入, Z ∈ ℝ^{n×m} (m ≪ d) 和软聚类分配 (q_{ij}) 3: 预训练自编码器 ({W_encoder, W_decoder}) ← X 4: 嵌入 (Z) ← 编码器(X, W_encoder) 5: 初始化伪标签: Ŷ ← k-means(Z) 6: 初始化第 j 个聚类参数: μ_j ← k-means(Z), Σ_j ← I, ω_j ← 1/k 7: 可训练的聚类分布参数: W_cluster ← {[μ_1, μ_2, ..., μ_k], [Σ_1, Σ_2, ..., Σ_k]} 8: 初始化: W^0 {W_encoder, W_decoder, W_cluster, W_MLP} 9: for t 1 → n epochs do 10: X_b ← 从 X 中采样 mini-batch 以保证均匀的类别分布 11: Z^t ← 编码器(X_b, W_encoder^t), \hat{X}_b ← 解码器(Z^t, W_decoder^t) 12: p_{ij} ← (Z^t, W_cluster^t) 使用公式 9 13: q_{ij} ← (Z^t, W_MLP^t) 使用公式 10 14: L ← L_recon γ * L_cluster 公式 13 15: W^{t1} ← W^t - α ∇_{W^t} L 更新可训练参数以最小化公式 13 中的联合损失 16: p_{ij} ← (Z, W_cluster^{t1}), Z ← 编码器(X, W_encoder^{t1}) 使用公式 8 17: ω_j ← 使用公式 8 更新 18: if ω_j ≤ 1/(2k) then 19: 停止训练 20: end if 21: end for表 3:本研究中使用的十六个表格数据集的总结。特征维度结合了数值特征和独热编码的分类特征。F-S 比是特征与样本的比率。C-分数表示所有特征对之间的平均绝对相关性。其次我们使用小批量梯度下降来优化深度聚类模型。然而当数据集不平衡时小批量可能不包含所有聚类样本导致聚类准确率被夸大或有偏差。我们使用 K-means 聚类获得伪标签并识别少数聚类。如果少数聚类有 nmin​ 个样本我们随机从其他聚类中选择相同数量的样本以形成 256 或更低的批量大小。这种随机抽样在每个周期执行并重复 1000 次以训练模型。因此批量大小根据少数聚类的大小在不同数据集之间有所变化。三个聚类参数均值向量、协方差矩阵和聚类权重的收敛性在图 5 中针对一个双聚类问题进行了展示。为了更好地可视化我们使用了两个连续均值向量更新之间的 L2 范数距离以及协方差矩阵的行列式。5 实验本节确定了用于评估我们提出的深度聚类方法的性能的表格数据集、基线算法和指标。5.1 表格数据集所有方法都在来自 OpenML-CC18 [46] 的 16 个不同的表格数据集上进行了评估。表 3 总结了 16 个表格数据集代表了各种应用领域和广泛的数据统计范围。表格数据的异质性进一步由表中的 F-S 比和 C-分数表征。F-S 比代表数据集的特征与样本比率。C-分数提供了特征相关性的度量。它显示了所有特征之间绝对相关性的平均值。值得注意的是先前关于表格数据分类而非聚类的研究有选择地使用具有非常大样本量的数据集[38, 39, 40]。在实践中大多数表格数据领域包含有限的样本和特征无论是否存在分类变量这与图像数据集不同。5.2 将基线方法适配到表格数据最近关于深度聚类方法的综述显示没有聚类表格数据集的例子[18, 47]。深度嵌入聚类方法总是针对基准图像数据集进行设计和评估。因此由于表 1 中呈现的以数据为中心的对比现有的深度聚类方法可能不是适用于表格数据的理想基线。DEC [8] 和 IDEC [9] 方法使用一个全连接的自编码器架构形式为 d-500-500-2000-10-2000-500-500-d。深度 k-means (DKM) [10] 和 AE-CM [5] 方法在将嵌入的固定维度 (10) 替换为目标聚类的数量 (k) 后使用了相同的学习架构。动态自编码器 (DynAE) 使用与 DEC/IDEC 相同的架构[11]。然而其目标函数通过图像增强平移和旋转进行正则化这在本文中必须对表格数据禁用。其他几种方法基于卷积神经网络CNN架构[48, 22]而全连接神经网络是表格数据的默认选择。例如Caron 等人使用 AlexNet 和 VGG-16 从图像中学习视觉特征经过 Sobel 滤波以去除颜色和增强对比度[6]这不适用于表格数据。他们的 deepCluster 架构有五个卷积层最多包含 384 个 2D 图像滤波器来学习图像特征。使用在图像上预训练的 VGG-16 模型进行表格数据的迁移学习并非易事。DEPICT 方法使用卷积去噪自编码器从损坏的图像中重建原始图像[22]。相反我们使用标准的卷积自编码器将 2D 滤波器替换为 1D 核以学习表格数据向量的嵌入因为图像去噪在表格数据上无法重现。在将七种最先进的深度聚类方法DEC, IDEC, AE-CM, DynAE, DEPICT, DKM, DCN适配为表格数据集的基线深度聚类方法时考虑了所有这些方法论方面同时还包括了两种传统的聚类方法k-means和高斯混合模型GMM。5.3 评估提出的深度聚类模型训练涉及自监督的数据重建和聚类分布学习不涉及真实标签。聚类嵌入的质量在下游聚类中使用聚类准确率ACC[49]进行评估如公式 14 所示。图 3: 使用 ID 为 1510 的表格数据集对于两个 γ 值获得的重建和聚类损失。较高的 γ 值导致聚类损失收敛更快但减慢了重建损失。然而为了确保聚类参数和自编码器权重的平滑收敛优选较低的值。这里TP 和 TN 表示真正例对和真负例对NC2​ 表示可能的配对数量E(RI) 是期望的兰德指数。对于多类分类TP 和 TN 使用一对其余方案确定。6 结果所有实验均在运行 Ubuntu 20.04、配备 64GB RAM 和 16GB 内存的 NVIDIA Quadro RTX A5000 GPU 的 Dell Precision 5820 工作站上进行。在模型训练之前我们使用均值和标准差对数值特征进行标准化并对分类特征进行独热编码。6.1 学习架构与实现所有算法均使用 Python 实现。提出的深度学习方法使用 PyTorch 包开发而传统方法使用 scikit-learn 实现。基线实现从其各自的 GitHub 仓库获得。具体来说DEPICT 算法使用 Theano 包实现其他方法使用 TensorFlow 或 Keras 包实现。如第 5.2 节所述所有基线深度聚类算法都是在图像数据集上进行基准测试的。因此我们对源代码进行了最小的修改以允许输入和学习表格数据集而非图像数据。所有方法包括提出的方法都使用相同架构的全连接自编码器d-500-500-2000-m-2000-500-500-d其中 m 是嵌入维度。DKM 方法将值 m 设置为聚类的数量k。适配后的 DEPICT 方法使用带有 1D 滤波器的基于 CNN 的架构来处理表格数据。对于所有实验学习率设置为 0.001使用 Adam 优化器批量大小为 256。每种方法预训练自编码器 1000 个周期然后与聚类损失公式 13联合微调另外 1000 个周期。深度学习方法相对于传统聚类的一个明显好处是其灵活的嵌入大小。因此考虑到表格数据集和特征的异质性对于每对深度学习方法和数据集嵌入维度在 5 到 20 之间以五个间隔5, 10, 15, 20变化。然而DMK 方法将嵌入大小设置为等于聚类的数量。深度聚类方法根据给定数据集产生最佳聚类性能的嵌入维度进行比较。6.2 聚类不平衡与收敛除了确保训练后的聚类分离外所提出的聚类损失的收敛性也很重要。图3显示了两种不同γ值下聚类损失的平滑收敛。较大的γ值1.0加速了收敛。然而较小的γ值0.1有助于以较慢的速度实现稳定和平滑的收敛。因此对于需要此超参数的模型选择γ值为0.1。所提出的深度聚类方法在创建聚类分离方面的有效性使用图4中的t-SNE图进行了可视化。聚类可视化发现了一个问题在没有早停的情况下长时间训练后少数聚类可能会与多数聚类合并。这种聚类合并是由于表格数据集中的聚类不平衡导致的。我们通过采用两种策略来解决这个问题。首先我们实施了一个基于聚类权重ωj更新的早停准则该权重是聚类大小的度量。当某个聚类在训练过程中与另一个聚类合并时其权重变为零这可以通过设置聚类权重的阈值来防止。当存在K个平衡聚类时权重初始值为1/K。当至少有一个聚类权重降至1/K的50%以下时我们停止训练以防止可能的聚类合并。其次我们使用小批量梯度下降来优化深度聚类模型。然而当数据集不平衡时小批量可能无法包含所有聚类的样本导致聚类准确率被夸大或产生偏差。我们使用K-means聚类获取伪标签并识别少数聚类。如果少数聚类有nmin个样本我们随机从其他聚类中选择相同数量的样本以构成批量大小为256或更小的批次。这种随机采样在每个epoch都进行并重复1000次来训练模型。因此批量大小根据少数聚类的大小在不同数据集之间有所变化。图5展示了一个两聚类问题中三个聚类参数均值向量、协方差矩阵和聚类权重的收敛情况。为了更好地可视化我们使用了两个连续均值向量更新之间的L2范数距离以及协方差矩阵的行列式。6.3 用于聚类的嵌入维度图像是高维数据通常投影到低维嵌入上以实现类别或聚类的有效分离。与图像数据不同表格数据的特征维度可能相当低且异构。在缺乏有效特征提取器如用于图像的 CNN的情况下尚不清楚表格数据集是在高于还是低于其原始特征空间的维度上可以更好地聚类。因此聚类表格数据的最佳嵌入大小可能因数据集或深度聚类方法而异。我们确定为给定的深度聚类方法和表格数据集产生最佳聚类性能的嵌入维度。我们观察到低维表格数据集可以从使用过完备自编码器潜在空间大于输入空间学习更高维嵌入中受益。因此我们在后续部分中使用这些最佳嵌入维度来比较我们提出的方法和基线深度聚类方法。表 4: 提出的 G-CEALS 方法与基线传统或深度聚类方法在十六个表格数据集上的聚类准确率比较。表 5: 提出的 G-CEALS 方法与基线传统或深度聚类方法在十六个表格数据集上的调整兰德指数ARI比较。6.4 表格数据集的聚类表 4 展示了基线方法和提出方法的聚类准确率ACC和排名顺序。与关于表格数据的其他研究类似由于数据异质性没有一种方法能在所有数据集上表现最佳。AE-CM 方法在 ID 为 40994、1480、1464、1068、1049 和 40975 的数据集上产生了优越的聚类准确率。然而该方法在其他一些数据集上产生了一些最低的准确率分数。类似地DynAE 方法在三个 ID 为 458、1050 和 40982 的数据集上优于所有方法。我们提出的 G-CEALS 方法在四个 ID 为 1063、1510、11 和 37 的数据集上优于所有基线。因此表格数据文献通常使用排名顺序来展示学习算法的泛化能力。我们提出的G-CEALS方法在16个表格数据集上显示出最佳的平均排名2.91.7优于所有其他有竞争力的深度聚类基线方法DCN5.13.7和AE-CM5.64.8。这些结果很重要因为传统的聚类方法长期以来一直被用作表格数据的实际常用方法。在Z空间上的GMM聚类GMM (Z)仅被两种深度聚类方法DCN和所提出的G-CEALS超越。基于聚类准确率的排名顺序结果与使用ARI分数获得的结果一致。表5根据ARI分数将我们提出的深度聚类方法列为所有方法中最佳平均排名2.81.7。尽管AE-CM方法在多个数据集上产生了有竞争力的聚类准确率ACC表4但其ARI分数在大多数情况下几乎为零。对于几乎所有其他基线方法至少有一个数据集的ARI分数为负这表明预测的聚类标签与真实标签之间存在不一致。相比之下所提出的G-CEALS方法获得的ARI分数没有一个是负的。表 6: 对数据集 1510 进行 1000 个周期聚类所需的时间秒。相对时间是其他基线方法的计算时间相对于所提出方法所用时间相对时间 1.0的比值。6.5 时间复杂度传统聚类方法成为表格数据实际选择的原因之一是计算时间。即使付出了大量计算的代价深度学习方法在超越传统机器学习处理表格数据方面也未能取得巨大成功。表 6 展示了所有方法在使用 ID 为 1510 的数据集时的训练时间。相对于其他竞争性的深度聚类方法DCN AE-CM提出的 G-CEALS 需要的计算时间少三到五倍。然而相比计算时间更快的基线方法K-means (X), GMM (X), GMM (Z), K-means (Z), DEC一分钟多一点的计算时间带来了高达 64% 的聚类准确率提升。因此提出的 G-CEALS 方法以相当低的计算成本提供了优越的聚类准确率。7 结果讨论本文提出了一种针对表格数据的深度聚类方法而最近一篇关于深度聚类方法的综述表明还没有针对此类数据的工作[18]。本文的主要发现如下。首先提出的 G-CEALS 方法在十六个表格数据集上的平均排名优于十一个基线传统和深度聚类方法。其次提出的方法通过学习高斯聚类参数在深度特征空间上展示了有效的聚类分离而现有模型学习的是 t-分布聚类的均值。第三提出的方法通过学习各个聚类权重而不是假设聚类平衡来处理表格数据中的聚类不平衡问题。第四与其他竞争性的深度聚类方法相比提出的方法显示出更快的计算成本。即使提出的方法在某些情况下计算成本高于一些传统聚类方法它也提供了优越的聚类准确率。7.1 传统聚类与深度聚类在表格数据的深度分类研究中一个普遍的观察是输入特征X的传统机器学习通常优于深度学习方法[16, 17]。然而简单的自编码器学习到的嵌入Z比传统的 X 机器学习实现了更好的聚类性能。在深度聚类方法中DCN 和 AC-EM 方法显示出优于传统聚类方法的聚类准确率。然而ARI 分数显示在自编码器学习的嵌入Z上的传统聚类K-means 或 GMM优于所有基线的深度或传统聚类方法在 X 上的 K-means 或 GMM。众所周知准确率指标在数据不平衡的情况下可能不可靠。数据不平衡问题在图像数据集中通常不像在表格数据集中那样被视为一个问题。在这种背景下像 ARI 这样的指标可能揭示有关聚类随机性的重要见解。因此当前在图像数据集上基准测试或为其开发的深度聚类方法AE-CM, DKM, DCN与更传统的方法GMM(Z), K-means (Z), DEC, IDEC相比可能无法在表格数据上产生稳健的聚类性能。相比之下提出的 G-CEALS 方法在聚类准确率和 ARI 分数上都取得了最佳性能表明其对表格数据的有效性。7.2 图像与表格数据嵌入传统的聚类方法在计算机视觉中已经过时因为在高维同质像素空间上进行聚类是无效的。相比之下表格数据集具有较小的样本量和维度以及异构特征而传统聚类仍然相关且有效。在此背景下我们的结果显示具有卷积神经网络的深度架构在学习表格数据嵌入方面不如处理图像数据时有效。我们的观察证实了一项初步研究该研究表明为图像数据集优化的最先进深度聚类方法在表格数据上不能产生令人满意的聚类准确率[50]。这表明需要专门针对表格数据的学习算法和架构类似于提出的 G-CEALS 方法。7.3 数据统计对聚类性能的影响表格数据被称为异构是因为特征空间和数据统计的异质性。我们在这种情况下讨论三种情景。首先分类特征通过额外的独热编码二进制列扩展了数据维度。十六个表格数据集中的三个IDs 469 23 40975仅包含分类特征。提出的 G-CEALS 对于分类表格数据是最佳的平均排名 2.7 (0.6)其次是其他深度学习方法平均排名 6.5 (3.5)和传统聚类方法平均排名 7.3 (1.8)。对于十二个纯数值表格数据集平均排名顺序相似G-CEALS3.0 (2.0)其他深度学习方法6.6 (3.5)传统聚类7.0 (3.4)。AE-CM 仅在一个混合数据集ID 1480上取得了最佳的聚类准确率71.3但遭受了负的 ARI 分数-0.001。相反G-CEALS 在聚类准确率65.2和 ARI0.033之间展示了更好的平衡。其次较高的 F-S 比表示更宽的数据表而较低的 F-S 比表示更高的数据表。具有较高 F-S 比的表格数据集更有可能给机器学习带来维度灾难。对于 F-S 比低于 1.0 的数据集G-CEALS 实现了 2.0 (1.0) 的平均排名而其他深度和传统方法的平均排名分别为 6.4 (3.6) 和 8.2 (2.8)。相反对于 F-S 比高于 1.0 的数据集G-CEALS 的平均排名为 3.2 (1.8)其他深度学习方法为 6.6 (3.5)传统聚类为 7.1 (3.1)。第三C-分数衡量表格数据集的内部特征相关性这可能会影响机器学习的性能。具有高 C-分数 0.10的表格数据集最好使用 G-CEAL 方法进行聚类平均排名 3.3 (1.9)而 G-CEAL 方法在具有低 C-分数 0.10的表格数据集上排名最佳2.3 (1.2)。深度学习方法在低和高 C-分数数据集上的平均排名顺序分别为 6.6 (3.3) 和 6.5 (3.6)。传统聚类方法在低和高 C-分数数据集上显示出较差的排名顺序分别为 7.5 (3.1) 和 7.2 (3.6)。7.4 消融研究聚类损失平衡参数 γ 对聚类准确率和 ARI 分数的影响如图 6 所示。结果表明聚类性能在不同的 γ 值下保持相对稳定。然而γ 值的选择会影响收敛的时间和平稳性尽管延迟的收敛预期会产生类似的聚类性能。因此优选较低范围内的 γ 值以确保稳定的收敛和聚类性能。7.5 局限性尽管聚类性能令人鼓舞但与其他任何方法一样提出的 G-CEALS 方法也有若干局限性。通过深度学习进行无监督学习或聚类并非易事因为深度学习通常期望一个目标变量或一个稳健的学习目标。通过创新学习目标或目标仍有很大的空间来提高聚类性能。此外数据或聚类不平衡在表格数据集中很常见这需要更多的算法解决方案而不是所提出的提前停止来避免聚类合并。与计算机视觉应用中的图像数据集不同由于表格数据集的异质性模型选择的几个方面例如嵌入维度和网络架构会发生变化。所提出的方法需要更好的模型选择和优化方法。8 结论本文提出了一种新颖的深度聚类方法用于同时学习未标记表格数据的聚类友好型嵌入和聚类分配。提出的 G-CEALS 方法相对于九种最先进的聚类方法的优越性表明多元高斯分布比广泛使用的t-分布能更好地学习聚类。此外动态更新目标聚类分布比为深度聚类设置闭式目标更有效。聚类权重对于在聚类不平衡期间确保正确的聚类分离至关重要。建议在选择合适的聚类方法时采用数据知情决策因为一种方法可能不适用于所有表格数据。所提出的深度聚类展示了一种有前途的方法可能会取代传统的机器学习方法来聚类表格数据。