几何多模态对比表示学习
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
Oct, 2022
该研究提出了模态间隙这一多模型表示空间中的有趣几何现象,对此进行了系统分析,以及对构成格局的模型初始化和对比学习优化进行了实证和理论上的解释。研究表明,严格维持不同数据模态之间的分离效用,有助于提高模型的下游分类性能和公平性。
Mar, 2022
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。
Apr, 2021
本文探索了应用对比学习改进模态表征的方法,提出了三阶段的多视角对比学习框架,通过监督和自监督对比学习来改进单模态和融合的多模态表征,并成功提高了多模态情感分析任务的效果。
Oct, 2022
本文提出了一种用于跨多个模态学习的训练有效方法 C-MCR,无需成对训练数据,通过在重叠的模态 B 上对现有的 MCR 进行连接和对齐,实现了跨模态匹配,进一步引入语义增强技术以提高准确性。将该方法应用于视听对比性学习,不仅无需使用成对数据,还可以在多个数据集上获得最先进的性能表现。
May, 2023
本研究提出了跨模态生成对抗网络 (Cross-modal GANs) 来建模不同模态数据的联合分布并学习判别式公共表征以弥合异质性差距。实验证明,与其他 10 种方法相比,我们的方法在跨模态检索范式上表现出更好的性能。
Oct, 2017
本研究提出了一种新颖的多粒度对比方法(MGC),通过构建细致的多粒度对应关系和对比学习,在不使用大规模数据集的情况下,显著优于现有的基准方法,在目标检测、实例分割、场景解析、语义分割和关键点检测等广泛下游任务中展现出数据高效性和优秀的表示迁移性能。
Jul, 2024