RetICL: 采用强化学习的上下文顺序检索示例

May, 2023

RetICL: 采用强化学习的上下文顺序检索示例

RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning

Alexander Scarlatos, Andrew Lan

TL;DR本研究提出了 Retrieval for In-Context Learning (RetICL)，一种可学习的方法，用于模拟和最佳选择逐个该如何为 in-context learning 选择任务例子。它将顺序示例选择问题作为马尔可夫决策过程，使用 LSTM 设计示例检索器模型，并使用 PPO 进行训练。我们在数学问题求解数据集上验证了 RetICL，表明它优于启发式和可学习的基线，并在 TabMWP 数据集上实现了最先进的准确性。我们还使用案例研究展示了 RetICL 隐含学习了数学问题求解策略的表示方式。

Abstract

Many recent developments in large language models focus on prompting them to perform specific tasks. One effective prompting method is in-context learning, where the model performs a (possibly new) generation/pre

large language models in-context learning retrieval for in-context learning markov decision process math problem solving

发现论文，激发创造

逐步学习上下文环境中的迭代检索

通过强化学习的训练过程，我们引入了迭代检索的新框架，将活跃检索器赋予迭代决策的能力，并在选择上下文学习示例时在语义解析任务中表现优于之前的方法。

Jun, 2024

基于检索演示的语言模型的上下文学习：一项调查

语言模型特别是预训练大型语言模型，在上下文少例学习方面表现出非凡的能力，能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索，这不仅提高了学习过程的效率和可伸缩性，还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究，我们对该领域的研究进行了广泛的概述回顾，在此调查中，我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。

Jan, 2024

博士 ICL: 演示检索上下文学习

本研究表明，在语义上相似的演示可以提高大型语言模型的性能，这可以通过呈现一些示范来完成，并且可以有效地对大量语言和任务进行泛化，同时，我们还引入了任务特定的演示检索器，以进一步提高性能。

May, 2023

ParaICL: 面向鲁棒的并行上下文学习

通过并行处理不同批次的样本，依据语义相似性在上下文学习中同时使用所有示范样本，并通过加权平均语义目标选择最合适的标记，从而提高 ICL 的有效性。

Mar, 2024

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

大型联想记忆检索中的上下文示例

以关联记忆模型为基础，将语境检索视为上下文检索的语言模型（LLM）的一种新途径，并研究了在上下文例子对 LLM 的性能影响下，更有效的例子选择方法。

Nov, 2023

评估大型语言模型的基于检索上下文学习的对抗鲁棒性

通过引入检索增强联系学习方法，利用检索器提取语义相关示例作为演示，提高模型对测试样本的攻击稳健性，并引入一种无需训练的对抗防御方法 DARD，通过丰富示例池来改进模型性能和稳健性。

May, 2024

一刀切” 不适用于所有情况：学习在语境中使用多少样本以提高文本分类效果

在这篇论文中，研究人员提出了一种新的自适应上下文学习 (AICL) 方法，通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数，以提高文本分类任务的性能。

Mar, 2024

大语言模型中上下文案例检索学习

本文提出了一种新的框架，通过训练密集检索器来识别高质量的上下文示例，进而提高大型语言模型（LLMs）的上下文学习表现。实验证明了该框架可以显著地提高在各种任务上的性能，而且具有良好的泛化能力。

Jul, 2023

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023