EBMs vs. CL: 探究自监督视觉预训练在视觉问答中的应用
本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法,用于自我监督多语言知识检索,通过生成新的标记表示来预测掩码标记,实验结果表明,在 8 种语言上,我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。
Mar, 2022
探索了一种基于能量的对比学习方法,将对比学习与基于能量的模型相结合,可以用于学习小型和中型数据集中的视觉表示,其在 MNIST、Fashion-MNIST、CIFAR-10 和 CIFAR-100 等数据集上都表现出了很好的结果,并相对于其他方法有 X4 到 X20 倍的加速。
Feb, 2022
本文探讨在预训练的文本编码器(如 Roberta)的微调期间进行联合能量模型(EBM)训练,以提高模型的准确性,并通过噪声对比估计进行训练,同时引入掩码语言模型(MLM)目标来提高 NCE 训练的效果。
Jan, 2021
本文介绍了基于能量的模型(EBMs)作为处理连续学习问题的一种有前途的模型,通过改变底层训练目标以避免对先前学习信息的干扰,提出了简单、高效且性能优良的 EBMs 版本,从多个基准测试中的表现来看,超越了基准方法。此外,本文还提出了基于对比散度的训练目标,可以与其他持续学习方法相结合,进一步提高性能。最后,本文还展示了 EBMs 适用于数据分布在没有显式任务的情况下发生改变这一更普遍的连续学习设置,这为未来的连续学习方法提供了有用的构建模块。
Nov, 2020
我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题,该方法可以自适应地选择与问题相关的视觉特征来回答问题,从而减少与问题不相关的视觉特征对推断答案的负面影响,实验证明了我们方法对 VQA-CP 数据集具有提升效果。
Apr, 2023
通过贝叶斯分析,我们对最先进的自监督学习目标进行了研究,提出了一种从第一原理推导这些目标的标准化方法,并表明将自监督学习与基于似然的生成模型进行整合的自然方式。我们在集群自监督学习和能量模型的领域内验证了这一概念,并引入了一种新的下界,可可可靠地惩罚最重要的失败模式。我们的理论发现通过对合成和真实世界数据的实验证实,包括 SVHN、CIFAR10 和 CIFAR100,因此显示我们的目标函数能够在聚类、生成和外分布检测性能方面远远优于现有的自监督学习策略。我们还证明 GEDI 可以集成到神经符号框架中,以减轻推理的快捷问题,并通过增强的分类性能学习更高质量的符号表示。
Dec, 2023
本文提出了一种基于对比学习的框架,通过引入对比潜变量来改进能量基模型的训练,设计一种新类的潜变量 EBMs 实现数据联合密度估计和对比潜变量的联合训练,实验结果表明该方案比现有的 EBM 方法(如变分自动编码器或扩散技术)具有更低的 FID 分数,训练速度更快、内存效率更高,并展示了该潜变量 EBMs 的条件和组合生成能力。
Mar, 2023
本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差,提出一种自监督辅助任务来减少语言先验的影响,从而提高 VQA 模型的准确性,无需引入额外的可视化注释。实验结果表明,我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50%提高到 57.59%,可以将基于注释的方法的性能提高 16%,而无需使用外部注释。
Dec, 2020
对比学习和掩模图像建模的比较研究,发现自监督视觉变换器(ViTs)在表示和下游任务性能方面具有不同的属性,可以互补,最简单的协调方法可以帮助利用这些方法的优点。
May, 2023
本文介绍了一种新的多项选择视频问题回答(Video QA)的训练方案,其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中,我们将原始问题格式进行了转化,以预测相关问题并提供模型更广泛的背景输入。然后,我们在对比学习的主阶段中添加了屏蔽噪声,并通过将正样本映射到受掩输入来改进模型表现。最后,我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明,我们的模型在相关测试集上均取得了最先进的性能,并通过进一步的分析验证了我们的方法。
Sep, 2020