本研究探讨了预训练视觉和语言模型在两个需要多模态集成的任务中的推理能力:(1)区分正确的图像-句子对与不正确的对,以及(2)计算图像中的实体。结果显示,预训练的V&L模型非常擅长解决任务(1),但无法充分解决任务(2),即计数探针,并不能推广到不同分布的数量。研究为我们提供了一些对这些发现的解释,并建议理解这些模型的推理和基础能力需要更有目的的调查。
Dec, 2020
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
本研究介绍了一个名为VLUE的视觉语言理解评估基准,可用于评估VLP模型的泛化能力和效率-性能权衡。该基准显示了所有VLP模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距,并且衡量VLP模型的效率-性能权衡可为设计选择提供有益见解。
May, 2022
本研究为了提高OpenAI GPT-3的可靠性,将其可靠性分解为四个方面:泛化性、社会偏见、校准性和事实性,并建立了简单有效的提示来提高其可靠性。通过适当的提示,GPT-3在所有这些方面都比规模较小的监督模型更可靠。
Oct, 2022
本文介绍了创建一个名为GLUE-X的统一基准的首次尝试,该基准用于评估自然语言处理模型中的OOD鲁棒性,在13个公开可用的OOD测试数据集上验收模型,发现模型在OOD任务上的性能明显下降,对提高模型鲁棒性提供了一些见解和改进方案。
Nov, 2022
本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息,解决了在有限样本时视觉-语言任务的问题,使输出更易于解释。
May, 2023
我们提出了一种有效利用MLLMs进行机器视觉治疗的方法,通过与去噪标签进行微调,以无监督的方式提高学习模型的性能,并通过提出的DICL策略解决了MLLMs与视觉任务的兼容性问题。
Dec, 2023
预训练语言模型与基于它们的参数高效微调方法被综合评述,重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。
在黑盒子中研究选择性预测,使用邻域一致性原则识别可靠性低的图像 - 语言模型在问答任务中的响应。
Apr, 2024
大型语言模型(LLMs)通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练,获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家(MoE)作为一种有效的方法,以最小计算开销显著扩展模型容量,受到学术界和行业的广泛关注。本调查旨在弥补对MoE文献缺乏系统全面综述的空白,为研究人员深入探讨MoE的复杂性提供重要资源。我们首先简要介绍MoE层的结构,然后提出了新的MoE分类法。接下来,我们概述了各种MoE模型的核心设计,包括算法和系统方面,以及可用的开源实现、超参数配置和实证评估的集合。此外,我们还勾画了MoE在实践中的多方面应用,并概述了一些未来研究的潜在方向。为促进MoE研究中最新进展的持续更新和共享,我们创建了一个资源存储库,可访问此https网址。
Jun, 2024