MetaVL:从语言模型向视觉语言模型转移上下文学习能力
通过对一些最先进的 VLM(Visual Language Model)进行分析,我们发现它们在执行 ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的 VLM 对齐框架,实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了 21.03% 的 ICL 表现(平均 11.3%),超过了最强 VLM 基线和多种 ICL 基准,并为 VLM 的 ICL 评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
本文介绍了大型语言模型在上下文学习中的递归学习能力,即元上下文学习。作者以两个理想化的领域为例,展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识,并修改其上下文学习策略。最后,作者通过真实世界回归问题的基准测试发现,元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境,可以提高大家对上下文学习的理解,为大型语言模型的应用打下基础。
May, 2023
MetaICL 是一种新的元训练框架,用于少样本学习,通过在大量训练任务上进行元训练,调整预训练模型进行上下文学习,从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果,该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验,比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好,在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时,MetaICL 方法和通常情况下全微调的模型表现相当甚至更优,甚至比参数近 8 倍的更大的模型表现更好,最后也证明了 MetaICL 可以和人工编写的指令相辅相成,两种方法相结合可以得到最佳的性能
Oct, 2021
通过对视觉 - 语言模型的大规模(LLMs)模型进行背景学习(ICL),本研究发现在 VLMs 中,ICL 主要受到演示的文本信息的驱动,视觉信息对 ICL 性能的影响较小。鉴于该发现,通过分析模型信息流和不同 ICL 设置下的模型内部状态,我们提出了一个简单而有效的方法 MMICES(Mixed Modality In-Context Example Selection),它在选择演示时考虑了视觉和语言两个模态,并显示出更好的 ICL 性能。通过大量实验证实了我们的发现,对 VLMs 的 ICL 性能的理解和改进进行了支持。
Nov, 2023
本文提出的元学习微调框架可提高目前状态下的预训练视觉语言模型在跨语言多模态场景下的适应性和性能表现,实验证明该方法在跨语言零样本和少样本多模态交叉迁移的场景下均可提高模型性能。
May, 2023
通过引入一种新颖的视觉上下文学习方法(VICL),包括视觉演示检索、目标导向图像摘要和目标导向演示组合,解决了大型视觉语言模型(LVLMs)中上下文学习的挑战,提高了效果,并且进一步调查了演示文本长度和位置对 LVLM 的影响,展示了 ICL 复位特定模型知识的潜力。
Feb, 2024
文中介绍了一种名为 CoAT 的优化方法,利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好,达到了在多任务训练中更大规模模型的性能水平。
May, 2023
在这项工作中,我们提出了一种元学习算法,通过在推理过程中学习新的视觉概念而无需微调,模拟了类似大型语言模型的能力。我们的方法利用一个冻结的预训练特征提取器,并将元学习重新构造为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模,从而在 11 个元学习基准中的 8 个中,超过或与元训练于这些基准的最先进算法 P>M>F 相匹配,而无需元训练或微调。
Oct, 2023
该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench,评估了先进的视觉大语言模型在这个基准测试套件上的能力,揭示了它们的各种优势和弱点,并表明即使是最先进的模型,如 GPT-4,也会在这些任务中面临挑战。
Mar, 2024
我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架,通过将文本和视觉提示量化和嵌入到统一的表示空间中,并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明,我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言,我们的研究在统一多模态上下文学习方面迈出了进一步的一步。
Dec, 2023