Recently, contrastive learning approaches (e.g., CLIP (Radford et al., 2021))
have received huge success in multimodal learning, where the model tries to
minimize the distance between the representations of diffe
本文提出了 FactorCL,一种新的多模态表示学习方法,旨在捕获有助于下游任务的共享信息和独特信息,该方法通过将任务相关信息分解为共享和独特表示,并通过最大化 MI 下限来捕获任务相关信息以及通过最小化 MI 上限来消除任务不相关的信息,并使用多模态数据增强来近似任务相关性。实验证明 FactorCL 在六项基准测试上取得了最先进的结果。