该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench,评估了先进的视觉大语言模型在这个基准测试套件上的能力,揭示了它们的各种优势和弱点,并表明即使是最先进的模型,如 GPT-4,也会在这些任务中面临挑战。
Mar, 2024
通过实验和评估,我们发现手写的命令和简单的命令通常比自动命令诱导方法更适用于 ICL,指出后者的缺乏泛化性。
Jul, 2023
本文概述了大型语言模型的新范式 —— 上下文学习,并探讨了训练策略和演示设计策略等高级技术,以及上下文学习所面临的挑战和未来方向。
Dec, 2022
介绍了 OpenICL 工具包,旨在提高 In-context Learning 和大型语言模型的评估,是一种灵活的架构,用户可以根据需要轻松组合不同的组件。 OpenICL 在分类,QA,机器翻译和语义解析等 NLP 任务上验证了其有效性。
Mar, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
本文提出利用元模型,基于大型语言模型的置信度得分预测新任务的扩展学习(ICL)准确度,并在四个大型语言模型和三个任务集上对其进行了基准测试。
May, 2023
通过对一些最先进的 VLM(Visual Language Model)进行分析,我们发现它们在执行 ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的 VLM 对齐框架,实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了 21.03% 的 ICL 表现(平均 11.3%),超过了最强 VLM 基线和多种 ICL 基准,并为 VLM 的 ICL 评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
通过使用影响函数分析训练样本的影响力,我们提出了一种名为 InfICL 的演示选择方法,用于选择对 In-Context Learning(ICL)有高影响力的训练样本,从而提高 ICL 的泛化性能,并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。
Feb, 2024
基于 Flamingo 架构的 8 个近期开源 LMMs 在 5 个不同的维度中评估了他们的缺陷,并研究了在上下文学习 (ICL) 方面的解决方案,提出了 Multitask-ICL、Chain-of-Hindsight-ICL 和 Self-Correcting-ICL 等新的多模态 ICL 方法。
Oct, 2023
通过研究在背景语境中的大规模神经语言模型对正则语言的学习,我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势,并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。