通过对比强化学习实现故事讲述的鲁棒性偏好学习

Oct, 2022

通过对比强化学习实现故事讲述的鲁棒性偏好学习

Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning

Louis Castricato, Alexander Havrilla, Shahbuland Matiana, Michael Pieler, Anbang Ye...

TL;DR使用对抗式生成模型和强化学习算法，本论文提出了一种新型的人工智能故事生成系统，能够根据人类喜好和偏好生成自然语言故事。

Abstract

Controlled automated story generation seeks to generate natural language stories satisfying constraints from natural language critiques or preferences. Existing methods to control for story preference utilize pro

automated story generation natural language critiques contrastive learning preference modeling reinforcement learning

发现论文，激发创造

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

基于奖励塑造的可控神经故事情节生成

通过引入 reward-shaping 技术的方法，研究表明，基于语言模型的故事情节生成方法可以生成满足特定目标的故事情节，并且比基线情节生成技术具有更合理的事件顺序。

Sep, 2018

使用对比奖励提升来自人类反馈的强化学习

本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果，无论是通过 GPTs 还是人类评价，我们的方法始终优于强基准。

Mar, 2024

BabyStories: 强化学习能否教会婴儿语言模型写更好的故事？

本研究探讨了基于有限训练数据预训练的语言模型中，通过人类反馈进行强化学习的影响，研究结果表明，对于较大的模型，在进行强化学习后，在叙事任务中表现更好。这些发现强调了有限数据条件下对语言模型进行强化学习微调的潜在益处，提高其在维持叙事焦点和连贯性方面的能力，并更好地遵循初始指令。

Oct, 2023

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

没有完美的度量标准：基于对抗性奖励学习的视觉叙事

通过 Adversarial REward Learning 框架从人类示范中学习隐式奖励函数，并通过学习后的奖励函数优化策略搜索，提高在生成抽象故事方面的表现，尤其在人类评估中相比最先进系统，取得了显著进步。

Apr, 2018

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022