目标导向的故事生成：用强化学习增强生成式语言模型

Dec, 2021

目标导向的故事生成：用强化学习增强生成式语言模型

Goal-Directed Story Generation: Augmenting Generative Language Models with Reinforcement Learning

Amal Alabdulkarim, Winston Li, Lara J. Martin, Mark O. Riedl

TL;DR本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Abstract

The advent of large pre-trained generative language models has provided a common framework for AI story generation via sampling the model to create sequences that continue the story. However, sampling alone is in

generative language models story generation deep reinforcement learning proximal policy optimization knowledge graph

发现论文，激发创造

基于奖励塑造的可控神经故事情节生成

通过引入 reward-shaping 技术的方法，研究表明，基于语言模型的故事情节生成方法可以生成满足特定目标的故事情节，并且比基线情节生成技术具有更合理的事件顺序。

Sep, 2018

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

通过对比强化学习实现故事讲述的鲁棒性偏好学习

使用对抗式生成模型和强化学习算法，本论文提出了一种新型的人工智能故事生成系统，能够根据人类喜好和偏好生成自然语言故事。

Oct, 2022

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对 StarCraft II 等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

ReGen：使用预训练语言模型的文本和知识库生成的强化学习

本文介绍了一种使用双向文本和图形生成的深度强化学习方法，通过线性化图形，将图生成问题转化为序列到序列生成问题，我们通过一个广泛的实验，表明所提出的方法在 WebNLG+2020 和 TekGen 数据集上都表现优异，提高了 WebNLG+ 2020 的状态 - of-the-art 结果。

Aug, 2021

神经故事规划

本文提出了一种将因果规划与神经语言模型统一起来的故事情节生成方法，该方法利用从大型语言模型中提取的常识知识以递归反向链接的方式扩展故事情节，并通过自动化评估证明相对于其他强基线方法它能生成更具连贯性的情节。

Dec, 2022