Dec, 2021

目标导向的故事生成:用强化学习增强生成式语言模型

TL;DR本文介绍了两种自动化技术,基于深度强化学习和奖励塑造来控制计算机生成的故事的情节,其中一种利用 PPO 对现有的基于变压器的语言模型进行微调,以生成既能连续文本又能寻求目标的故事;而另一种从不断展开的故事中提取出一个知识图谱,由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。