LLM 亲境召回取决于提示

Apr, 2024

LLM In-Context Recall is Prompt Dependent

Daniel Machlab, Rick Battle

TL;DR通过使用 needle-in-a-haystack 方法分析各种大型语言模型的上下文召回性能，我们的研究表明模型的成功检索能力不仅取决于提示内容，而且还可能受到训练数据中的偏见的影响。相反，通过对模型架构、训练策略或微调进行调整可以提高性能，我们的分析揭示了关于大型语言模型行为的见解，为开发更有效的应用提供了指导。

Abstract

The proliferation of large language models (LLMs) highlights the critical importance of conducting thorough evaluations to discern their comparative advantages, limitations, and optimal use cases. Particularly im

large language models evaluations in-context recall performance needle-in-a-haystack method training strategy

发现论文，激发创造

基于内存的大型语言模型中的针头引线

本文展示了使用增强记忆的大型语言模型（LLM）架构在提高从潜在长上下文中召回事实的能力方面的好处。我们以 LARIMAR 为案例研究，它是最近提出的一种 LLM 架构，通过在 LLM 解码器上增加外部关联内存来增强性能，并在几个长上下文召回任务中进行测试，包括密码测试和大海捞针测试。我们证明了测试时可以适应比训练中观察到的更长上下文，同时保持经过训练的解码器可以识别的内存读出结果，而不增加 GPU 内存占用。与参数数量相近的长上下文召回任务的其他替代架构相比，LARIMAR 可以在没有任何特定任务训练的情况下保持强大的性能。

Jul, 2024

大型语言模型可能是懒惰学习者：在上下文学习中分析快捷方式

本篇研究旨在探索语言模型的泛化能力，结果表明语言模型更可能利用提示中的快捷方式，尤其是模型变得很大时。

May, 2023

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

LLM 在低资源翻译中的缺陷：检索和理解均为问题

本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语，探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明，即使是相对较小的语言模型，在提供了足够相关语言信息的情况下，能够通过提示上下文实现零样本低资源翻译。然而，提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上 7000 多种语言及其使用者的翻译系统中的限制。

Jun, 2024

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

多模态大语言模型的长上下文能力基准测试

对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对 API 模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Jun, 2024

大语言模型中上下文案例检索学习

本文提出了一种新的框架，通过训练密集检索器来识别高质量的上下文示例，进而提高大型语言模型（LLMs）的上下文学习表现。实验证明了该框架可以显著地提高在各种任务上的性能，而且具有良好的泛化能力。

Jul, 2023

何时检索：教导 LLMs 有效利用信息检索

本文介绍了如何使用大型语言模型（LLMs）有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估，我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气阈值来决定何时使用检索程序三种配置下，相比相同 LLM 的改进。通过我们的分析，我们证明了当 Adapt-LLM 确定无法回答问题时，它能生成 <RET> 标记，表明需要进行信息检索，同时当只依赖参数存储器时，其达到明显高的准确率水平。

Apr, 2024