多模态深度聚类:图像的无监督分区
提出了一种名为 Deep Multimodal Clustering 的无监督音频视觉学习模型,采用不同共享空间的多模态矢量的卷积映射集,进行多音频视觉对应关系的捕捉和精细对应学习,并通过最大间隔损失进行有效训练。通过实验,该模型可以学习到有效的单模态表示,并在声音定位、多源检测和音频视觉理解方面显示出显著的性能。
Jul, 2018
本文提出了一种基于数据增强的深层多聚类方法 AugDMC,利用自我 supervised 原型学习从数据中自动提取与特定方面相关的特征,并采用稳定的优化策略以减轻不同数据增强造成的不稳定性问题,并能够获得基于数据不同方面的多重聚类结构。
Jun, 2023
本研究提出了一种名为 DDMC 的新型双解缠绕深度多聚类方法,通过学习解缠绕表示来实现多个隐藏数据结构的独立聚类目标,并通过变分期望最大化(EM)框架进行实现,实验证明 DDMC 在七个常用任务上始终优于现有的方法。
Feb, 2024
本论文提出了一种名为 DCCM 的新型聚类框架,可以从三个方面探索和充分利用未标记数据中的各种相关性,通过伪标签监督,全面的研究特征对输入空间的图像变换的稳健性,并将 triplet 互信息应用于聚类问题中,从而进一步有助于学习更有区分性的特征。在多个数据集上进行了广泛的实验,取得了良好的性能,例如在 CIFAR-10 上达到 62.3%的聚类准确度,比现有最先进方法高出 10.1%。
Apr, 2019
本文提出了一个名为 PointDC 的新型分割框架,通过两个阶段的处理(CMD 和 SVC),实现在不使用任何形式的注释的情况下的点云全自动无监督语义分割。该框架在 ScanNet-v2 和 S3DIS 两种数据集上均优于以往的无监督学习方法,分割性能显著提高。
Apr, 2023
实现了基于交叉模态预测、自监督学习和深度聚类的方法,通过将一种模态的非监督聚类用作对另一种模态的监督信号来利用视觉和音频之间的语义相关性和差异,实现了在多个视频和音频数据集上优于其他方法的预训练模型,特别是通过仅使用大规模无标签数据预训练的视频模型,相比使用 ImageNet 和 Kinetics 数据进行了全监督预训练的同一架构,更显著地提高了在 HMDB51 和 UCF101 上的动作识别精度。
Nov, 2019
使用深度学习、高斯混合模型和卷积神经网络方法,本研究提出了一种可以快速预测标签概率的图像分割方法,并且能部分克服高斯混合模型中忽略相邻像素相关性的缺点,通过在多序列 MRI 图像上进行心肌梗塞分割的实验证明了该方法的优势。
Apr, 2024
本文提出了一个自监督训练框架,通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性,进而学习一个共同的多模态嵌入空间,并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.
Apr, 2021
本文提出了一个新的深度多视图联合聚类框架 (DMJC),结合多个深度特征,多视图融合机制和聚类分配可同时学习,以提高聚类性能。通过两种不同的方案实现多视图融合,优化 KL 散度聚类目标来进行 DMJC-S 和 DMJC-T 的优化。实验证明,DMJC-S 和 DMJC-T 均优于单 / 多视图基线和现有的多视图聚类方法。此为首次将多视图聚类建模为深度联合框架,对于无监督多视图学习具有有意义的借鉴。
Aug, 2018