multi-modal contrastive learning (MMCL) has recently garnered considerable
interest due to its superior performance in visual tasks, achieved by embedding
multi-modal data, such as visual-language pairs. However,
本文提出了 FactorCL,一种新的多模态表示学习方法,旨在捕获有助于下游任务的共享信息和独特信息,该方法通过将任务相关信息分解为共享和独特表示,并通过最大化 MI 下限来捕获任务相关信息以及通过最小化 MI 上限来消除任务不相关的信息,并使用多模态数据增强来近似任务相关性。实验证明 FactorCL 在六项基准测试上取得了最先进的结果。