通过无需训练的码书优化和分层对齐发掘多模态统一离散表示的潜能

Mar, 2024

通过无需训练的码书优化和分层对齐发掘多模态统一离散表示的潜能

Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment

PDF

Hai Huang, Yan Xia, Shengpeng Ji, Shulei Wang, Hanting Wang...

TL;DR最近的表征学习进展展示了多模态对齐的重要性。我们提出了一种无需重新训练的代码本优化方法（TOC）来提高模型性能，并引入了分层双交叉模态信息分解（H-DCID）方法来扩展信息分离和对齐到两个级别，进一步增强准确的多模态学习。

Abstract

Recent advances in representation learning have demonstrated the significance of multimodal alignment. The dual cross-modal information disentanglement (DCID) model, utilizing a unified codebook, shows promising

multimodal alignment dual cross-modal information disentanglement training-free optimization of codebook hierarchical dual cross-modal information disentanglement cross-modal learning

发现论文，激发创造

使用表示编码书进行多模态对齐

该研究论文提出了一种基于聚类表示学习的多模态信号对齐方法，使用字典聚类编码将图像和文本编码到一个共同的编码空间中，并采用师生蒸馏的方法进一步优化学习过程，在多种视觉语言基准测试中取得了最新的最佳结果。

Feb, 2022

深层交叉模态哈希：通过哈希函数和统一哈希编码共同学习

本文提出了一种新的端到端的深层交叉模态哈希方法 (DCHUC)，通过迭代优化算法学习图像 - 文本对的统一哈希码和一对哈希函数，并使用所学的统一哈希码来指导哈希函数的学习，同时学习到的哈希函数也可以反馈指导统一哈希码的优化过程。实验结果表明，该方法优于现有的交叉模态哈希方法。

Jul, 2019

DCID: 深度规范信息分解

本文提出 DCID 模型以及 ICM 评估指标，通过实验在已知真实标签的合成数据和大脑 MRI 数据上验证 DCID 模型能够成功提取单变量目标的共享信息，并能更准确地预测大脑区域和肥胖变化。

Jun, 2023

i-Code: 一种集成且可组合的多模态学习框架

该论文提出了一种自我监督的预训练框架 ——i-Code，用户可以将视觉、语音和语言的模态灵活地组合成统一的多用途向量表示，通过融合网络使用新颖的注意机制和其他架构创新来从不同模态中有效地组合信息，实验证明 i-Code 可以优于现有的技术在五个视频理解任务和 GLUE NLP benchmarks 上取得最先进的表现。

May, 2022

多模态树解码器用于文档图像中的目录提取

本文提出了一个新的端到端的模型，使用多模式树解码器 (MTD) 来作为 HierDoc 的基准评测，在提取文档标题和分级之间的关系时，模型使用文本、视觉、布局信息等多模态特征进行融合，最终在 TEDS 相似度度量和 F1-Measure 上平均分别达到了 87.2% 和 88.1% 的表现。

Dec, 2022

基于解耦多模式对比学习的无监督自然语言推断

本文提出了一种名为 MACD 的多模态对齐对比去耦合学习网络，通过对比学习将视觉信息编码到解耦的文本编码器中，从而使其可以嵌入视觉知识，提高了无监督的自然语言推理的性能。

Oct, 2020

用于监督表示学习的离散 Infomax 编码

本文提出一种能够生成离散信息最大化码（DIMCO）的模型，该模型使用了概率编码器，可以产生与输入数据相关联的 k 路 d 维码。我们的学习目标是最大化代码和标签之间的互信息，同时使用正则化来强制码字的项尽可能独立。我们的分析表明，使用 DIMCO 这样的短代码可以在少样本分类的情况下减少过拟合，并且相对于以前的方法，DIMCO 获取的代码在内存和检索时间方面也更加高效。

May, 2019

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

离散选择建模中的图像：解决多模态输入中的数据同构性问题

对于离散选择建模（Discrete Choice Modeling，DCM）与机器学习的交集进行研究，以图像数据整合进 DCM 的效用函数并对其对模型解释性的影响进行探讨。研究发现，神经网络（NN）组件在存在共现情况下，能够从图像中学习和复制表格变量的表达，从而影响了 DCM 参数的解释性。针对这一挑战，文章提出并对两种方法进行评估：通过架构设计调整来隔离冗余信息，以及通过源信息屏蔽和修复来降低同构信息的影响。在半合成数据集上进行的实验表明，尽管架构的修改结果不确定，但直接从数据源进行干预可以更有效地保持 DCM 解释性参数的完整性。文章总结了研究结果在现实世界中的适用性，并讨论了将复杂数据模式相结合的混合建模研究的意义。通过使用 MIT 的道德机器数据集，整合表格和图像数据，并采用学习多项式逻辑（Learning Multinomial Logit，L-MNL）框架，实现了对表格和图像数据完全匹配的控制。

Dec, 2023

自监督跨模态相互蒸馏的三维动作表示学习

本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示，该框架中引入邻域相似性分布来建模每种模态中学到的知识，并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息，该方法在多个数据集上均举行了大量实验，超出了现有的自监督方法并创造了一系列新记录。

Aug, 2022