通过上下文推断减轻语言模型中强先验问题

Jan, 2024

通过上下文推断减轻语言模型中强先验问题

Mitigating the Problem of Strong Priors in LMs with Context Extrapolation

Raymond Douglas, Andis Draguns, Tomáš Gavenčiak

TL;DR我们开发了一种新技术来减轻强偏好问题，通过将原始指令集产生一个弱化版本的提示并从弱化的提示中推断模型如何继续执行一个假设加强的指令集，我们将语言模型概念化为混合模型，并对 GPT-2、GPT-3、Llama 2 和 Mistral 等模型进行了应用，在四个任务中找到了 41/44 的改进，在所有 44 个组合中，完成任务比例的中值增加了 40%。

Abstract

language models (LMs) have become important tools in a variety of applications, from data processing to the creation of instruction-following assistants. But despite their advantages, LMs have certain idiosyncratic limitations such as the problem of `→

language models strong priors prompt injection attacks inverse scaling mixture models

发现论文，激发创造

使用迭代上下文学习获取大型语言模型先验

使用迭代学习方法，从大型语言模型（LLMs）中获取贝叶斯先验分布，并验证与人类先验的定性一致性。

Jun, 2024

大规模语言模型在提示注入攻击下的机器翻译伸缩行为

研究了大型语言模型在机器翻译任务上的指令注入攻击，发现在某些条件下，更大的模型可能更容易受到成功攻击的影响，这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。

Mar, 2024

LMPriors: 预训练语言模型作为任务特定先验

通过引入语言模型先验（LMPriors），该研究证明了利用元数据来鼓励下游模型与 LM 的常识推理保持一致可以提高模型性能，并在多个任务中表现出良好的性能，如特征选择、因果推断和安全强化学习。

Oct, 2022

大型语言模型可能是懒惰学习者：在上下文学习中分析快捷方式

本篇研究旨在探索语言模型的泛化能力，结果表明语言模型更可能利用提示中的快捷方式，尤其是模型变得很大时。

May, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

指令层次结构：训练 LLMs 优先处理特权指令

今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响，使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构，明确定义了在不同优先级指令冲突时模型应该如何行为，并提出了一种数据生成方法来展示这种层次指令遵循行为，教导 LLMs 有选择性地忽略低权限指令。我们将这种方法应用于 GPT-3.5 上，展示它显著增加了鲁棒性，甚至对训练期间未见的攻击类型，同时对标准能力的降低影响很小。

Apr, 2024

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

通过软提示压缩使 LLMs 适应高效上下文处理

该研究提出了一种名为 SoftPromptComp 的创新框架，它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明，该框架显著降低了计算负担，并提高了大语言模型在各项基准测试中的效力，同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解，并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。

Apr, 2024

忽略不计：大型语言模型中的指令覆盖和调控

最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试，对比了最流行的专有模型和不同大小的开源模型。实验表明，较大的模型在遵循指令方面表现最佳，并且对内部和上下文指令具有覆盖能力。然而，在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区，以保持指令遵循能力。此外，提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突，因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

Feb, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023