基于奖励塑造的可控神经故事情节生成

Sep, 2018

基于奖励塑造的可控神经故事情节生成

Controllable Neural Story Plot Generation via Reward Shaping

Pradyumna Tambwekar, Murtaza Dhuliawala, Lara J. Martin, Animesh Mehta, Brent Harrison...

TL;DR通过引入 reward-shaping 技术的方法，研究表明，基于语言模型的故事情节生成方法可以生成满足特定目标的故事情节，并且比基线情节生成技术具有更合理的事件顺序。

Abstract

Language-modeling--based approaches to story plot generation attempt to construct a plot by sampling from a language model (LM) to predict the next character, word, or sentence to add to the story. LM techniques lack the ability to receive guidance from the user to achieve a specific g

story plot generation language modeling reward-shaping technique automated evaluations human-subject studies

发现论文，激发创造

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021

神经故事规划

本文提出了一种将因果规划与神经语言模型统一起来的故事情节生成方法，该方法利用从大型语言模型中提取的常识知识以递归反向链接的方式扩展故事情节，并通过自动化评估证明相对于其他强基线方法它能生成更具连贯性的情节。

Dec, 2022

预训练语言模型的剧情写作

提出了一种新方法 ScratchPlot，使用 Pre-trained language models，利用 content planning 生成故事情节，并使用 generate-and-rank approach 对所生成的（story, ending）pairs 进行排序。实验表明，在人类评估和自动评估中都获得了更好的结果。

Jun, 2022

神经故事生成中预测可解释情节的学习

本文提出了一种基于潜在变量模型的神经故事生成方法，采用外部摘要模型指导该方法从训练数据中学习生成具有可解释高级情节的概述，并在自动和人类评估中取得了显著的改进。

Dec, 2019

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对 StarCraft II 等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019

通过对比强化学习实现故事讲述的鲁棒性偏好学习

使用对抗式生成模型和强化学习算法，本论文提出了一种新型的人工智能故事生成系统，能够根据人类喜好和偏好生成自然语言故事。

Oct, 2022

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。