ICLEval：评估大型语言模型的上下文学习能力

Jun, 2024

ICLEval：评估大型语言模型的上下文学习能力

ICLEval: Evaluating In-Context Learning Ability of Large Language Models

Wentong Chen, Yankai Lin, ZhenHao Zhou, HongYun Huang, Yantao Jia...

TL;DR通过 ICLEval 基准测试，我们展示了不同大语言模型中 ICL 能力普遍存在，并且模型大小不是 ICL 功效的唯一决定因素。

Abstract

in-context learning (ICL) is a critical capability of large language models (LLMs) as it empowers them to comprehend and reason across interconnected inputs. Evaluating the ICL ability of LLMs can enhance their u

in-context learning large language models icl abilities evaluation frameworks icleval benchmark

发现论文，激发创造

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

InstructEval: 指令选择方法的系统评估

通过实验和评估，我们发现手写的命令和简单的命令通常比自动命令诱导方法更适用于 ICL，指出后者的缺乏泛化性。

Jul, 2023

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

OpenICL: 一种面向上下文学习的开源框架

介绍了 OpenICL 工具包，旨在提高 In-context Learning 和大型语言模型的评估，是一种灵活的架构，用户可以根据需要轻松组合不同的组件。 OpenICL 在分类，QA，机器翻译和语义解析等 NLP 任务上验证了其有效性。

Mar, 2023

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

估计大型语言模型能力的方法（无需标记测试数据）

本文提出利用元模型，基于大型语言模型的置信度得分预测新任务的扩展学习（ICL）准确度，并在四个大型语言模型和三个任务集上对其进行了基准测试。

May, 2023

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

通过影响分析的上下文学习示范选择

通过使用影响函数分析训练样本的影响力，我们提出了一种名为 InfICL 的演示选择方法，用于选择对 In-Context Learning（ICL）有高影响力的训练样本，从而提高 ICL 的泛化性能，并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。

Feb, 2024

超越任务性能：通过上下文学习评估和减少大型多模态模型的缺陷

基于 Flamingo 架构的 8 个近期开源 LMMs 在 5 个不同的维度中评估了他们的缺陷，并研究了在上下文学习 (ICL) 方面的解决方案，提出了 Multitask-ICL、Chain-of-Hindsight-ICL 和 Self-Correcting-ICL 等新的多模态 ICL 方法。

Oct, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024