关于奖励模型、参数更新和上下文提示的变换

Jun, 2024

关于奖励模型、参数更新和上下文提示的变换

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu...

TL;DR我们展示了三种常用的适应工具的互换性，分别为参数更新、奖励建模和上下文提示，形成了一个三角形框架，建立了六个转换方向，每个转换方向都有助于实现各种应用。我们的工作为现有研究提供了一个整体观点，并提出了潜在的研究方向。我们希望我们的工作成为未来 LLM 研究的有用路线图。

Abstract

Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct →

pre-trained large language models adaptation tools parameter updating reward modeling in-context prompting

发现论文，激发创造

通过重用参数高效的提示来减少重新训练

该研究提出了几种 “Prompt Recycling” 方法，在不需要重新进行调整 prompts 的情况下，将源模型训练的 prompts 转换成适用于新目标模型的 prompts，从而实现对单个预先训练的大型语言模型进行多个任务的有效执行，并且展示了在模型之间进行 prompts 的循环利用是可行的，但仍需要改进技术以提高效能。

Aug, 2022

重新参数化的低秩提示：在 0.5K 参数范围内泛化视觉语言模型

通过重新参数化低秩提示（RLP），我们设计了一种新型提示，用于高效和有效地适应基于视觉和语言的模型，并显著增加了传统提示调整的平均下游准确性，仅使用 0.5K 的参数。

Dec, 2023

通过获胜的中奖策略有效促进小型语言模型进行跨语言任务

Lottery Ticket Prompt-learning (LTP) framework integrates winning tickets with soft prompts to enhance the efficacy of small-sized models, particularly targeting low-resource languages.

Apr, 2024

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

对齐大型语言模型的奖励转换与合并

学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先，对于奖励模型的单调转换，是否有一种选择比其他选择更好？其次，我们经常希望将语言模型与多个属性对齐：我们应该如何组合多个奖励模型？通过使用与 Bradley-Terry 偏好模型学习的奖励（常见情况）的概率解释对齐过程，我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先，它强调改进表现较差的输出，而不是已经得分很高的输出。这减轻了欠拟合（其中某些提示没有改进）和奖励欺骗（模型学习利用奖励模型的误规范）。其次，它通过将求和与逻辑合取链接，实现了奖励的有原则的聚合：转换后的奖励的总和对应于在所有测量属性中输出是 “好” 的概率，我们可以准确刻画这种概率。使用 RLHF 对调整语言模型以既有帮助又无害的方式进行实验，与基准（未转换）方法相比有显著改进。

Feb, 2024

使用翻译记忆增强大型语言模型翻译器

利用翻译记忆作为提示是一种有前途的机器翻译模型上下文学习方法，本文通过使用大型语言模型进行提示，发现 LLM 的‘理解’提示的能力确实有助于更好地利用 TMs，并通过实验证明，使用高质量的 TM 提示可以大大改善预先训练的 LLM 翻译器的结果，甚至可以与最新状态下大规模领域内双语数据和针对下游任务进行调整的 NMT 系统的结果相媲美。

May, 2023

大语言模型的机器翻译：波斯语，英语和俄语方向的提示工程

通过研究生成式大型语言模型在机器翻译中的性能，我们发现多语言模型（如 PaLM）在人工翻译输出方面表现出类似人类的水平，能够根据样式指南和语言要求优化所需的翻译细微差别，并在处理和应用提示上表现出色。我们还针对流行的语言模型作为机器翻译工具的错误和限制进行了分类和提出了设计提示进行上下文学习的方法。通过改进评估指标的准确性和可靠性，我们的研究旨在促进生成式大型语言模型在机器翻译中的进步。

Jan, 2024

通过软提示压缩使 LLMs 适应高效上下文处理

该研究提出了一种名为 SoftPromptComp 的创新框架，它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明，该框架显著降低了计算负担，并提高了大语言模型在各项基准测试中的效力，同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解，并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。

Apr, 2024

自回归大型语言模型中的提示

自回归大语言模型已经改变了自然语言处理领域的格局。基于预训练和提示范式的方法已经取代了常规的预训练和微调方法用于许多下游自然语言处理任务。本文讨论了已经在自回归大语言模型上使用的各种提示技术，提供了一个基于这个分类体系的简明调研，并且确定了自回归大语言模型中提示领域的一些未解决问题，可作为未来研究的方向。

Nov, 2023

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023