大语言模型中上下文案例检索学习
本文提出了一种有效的方法,利用标注数据和语言模型(LM)检索 in-context learning 的提示,训练稠密的检索器并在三个序列到序列任务中发现它明显优于之前的工作和多个基线。
Dec, 2021
通过使用多模态数据,我们的研究深入评估了文本信息对无监督选择多模态上下文示例的影响,揭示了检索器性能对所使用模态的显著敏感性,我们还介绍了一种新颖的有监督多模态大语言模型检索器(MSIER),通过使用神经网络选择样例以提高多模态上下文学习效率,并通过在三个不同任务上进行广泛测试来验证这种方法的有效性,我们还调查了模态对我们的有监督检索方法的训练的影响,并指出了诸多成功因素,这一探索为未来的进一步发展铺平了道路,突显了通过战略性使用多模态数据在多模态大语言模型中实现精细的上下文学习的潜力。
Apr, 2024
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过对三个文本分类任务的广泛实验,我们发现在选择演示示例时,不仅选择语义上相似的演示示例有益,还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是,我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。
Sep, 2023
本研究提出了 Retrieval for In-Context Learning (RetICL),一种可学习的方法,用于模拟和最佳选择逐个该如何为 in-context learning 选择任务例子。它将顺序示例选择问题作为马尔可夫决策过程,使用 LSTM 设计示例检索器模型,并使用 PPO 进行训练。我们在数学问题求解数据集上验证了 RetICL,表明它优于启发式和可学习的基线,并在 TabMWP 数据集上实现了最先进的准确性。我们还使用案例研究展示了 RetICL 隐含学习了数学问题求解策略的表示方式。
May, 2023
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023
语言模型特别是预训练大型语言模型,在上下文少例学习方面表现出非凡的能力,能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索,这不仅提高了学习过程的效率和可伸缩性,还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究,我们对该领域的研究进行了广泛的概述回顾,在此调查中,我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。
Jan, 2024
理解上下文是理解人类语言的关键,本论文介绍了一个上下文理解基准,通过适应现有数据集来评估生成模型的能力,并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。
Feb, 2024