基于提示的长度控制生成与强化学习

Aug, 2023

基于提示的长度控制生成与强化学习

Prompt-Based Length Controlled Generation with Reinforcement Learning

Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu

TL;DR我们提出了一种基于提示的长度控制方法，通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成，从而实现长度可控的生成，该方法在广泛适用于类似 GPT 的大型语言模型的同时，显著提高了摘要任务中基于提示的长度控制的准确性。

Abstract

Recently, large language models (LLMs) like ChatGPT and GPT-4 have attracted great attention given their surprising improvement and performance. Length controlled generation of LLMs emerges as an important topic, which also enables users to fully leverage the capability of LLMs in more

large language models length controlled generation autoregressive generation reinforcement learning summarization task

发现论文，激发创造

基于提示的长度受控生成与多种控制类型

通过采用强化学习和通过基于规则的奖励模型给出的奖励信号进行样本过滤的方式，我们提出了一种基于提示的方法，以不同的控制类型实现控制长度的生成，并在流行的摘要数据集上显著提高了准确率。

Jun, 2024

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

长提示的自动工程化

我们研究了自动的长提示工程算法，证明了贪婪算法和遗传算法在搜索效率方面的优越性，并引入了两种利用搜索历史增强搜索算法效果的新技术。我们的研究结果表明，该算法在 Big Bench Hard 的八个任务中实现了平均 9.2% 的准确度提升，突显了自动化提示设计对充分利用 LLMs 的能力的重要性。

Nov, 2023

大规模语言模型代理的自动提示工程规划

在这篇论文中，我们提出了一种名为 RePrompt 的新方法，通过从与 LLM 代理的交互中获取的聊天记录，逐步优化 LLM 代理的提示，从而使 LLM 在特定领域中学会规划，我们在 PDDL 生成和旅行规划的实验中证明了我们的方法可以提高不同推理任务的性能。

Jun, 2024

自回归大型语言模型中的提示

自回归大语言模型已经改变了自然语言处理领域的格局。基于预训练和提示范式的方法已经取代了常规的预训练和微调方法用于许多下游自然语言处理任务。本文讨论了已经在自回归大语言模型上使用的各种提示技术，提供了一个基于这个分类体系的简明调研，并且确定了自回归大语言模型中提示领域的一些未解决问题，可作为未来研究的方向。

Nov, 2023

Prompt Highlighter：多模态 LLMs 的交互控制

该研究介绍了一种新的推理方法，Prompt Highlighter，通过在生成过程中用户可以突出特定的提示段来实现交互式控制，利用突出显示的令牌通过注意力权重指导模型来产生期望的输出。实验结果证实了该方法在关注输入背景和生成可靠内容方面的有效性。

Dec, 2023

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021