基于强化学习的不确定性下自然语言生成规划

ACLJun, 2016

基于强化学习的不确定性下自然语言生成规划

Natural Language Generation as Planning under Uncertainty Using Reinforcement Learning

Verena Rieser, Oliver Lemon

TL;DR本研究提出了一种新的基于统计规划的自然语言生成模型，它能够在存在噪声反馈的情况下（例如用户和实现器的当前生成上下文），有效地解决常见的自然语言生成问题，包括信息展示、语句长度和信息传递量等方面的折衷问题。我们采用强化学习方法训练该模型，并将其性能与先前工作中的基准性能进行了比较，结果表明，该模型的性能明显优于所有基线模型。

Abstract

We present and evaluate a new model for natural language generation (NLG) in spoken dialogue systems, based on statistical planning, given

natural language generation spoken dialogue systems statistical planning reinforcement learning information presentation

发现论文，激发创造

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

基于循环神经网络与卷积句子重排的对话随机语言生成

本文提出基于联合循环卷积神经网络结构的统计语言生成器，可以在不需要语义对齐或预定义语法树的情况下，训练对话行为 - 话语对。客观指标表明，在相同的实验条件下，这种新模型优于以前的方法。人类评委的评估结果表明，它产生的不仅是高质量而且是语言上多变的话语，而且与 n-gram 和基于规则的系统相比受到更多的青睐。

Aug, 2015

通过强化学习实现面向任务的自适应自然语言生成的对话

本研究提出了 ANTOR，一种基于强化学习的自适应任务对话自然语言生成方法，将自然语言理解模块纳入强化学习的目标函数中，以生成适应于环境和不同用户的自然语言表达。

Sep, 2022

强化学习助力自然语言生成：在线领域非正式摘要的离线强化学习

本研究介绍了一种创新的自然语言生成（NLG）方法，旨在优化用户体验并减轻人类客户支持代理的工作量。通过引入机器学习模型，该方法具有更高的回复质量，从而提高了客户支持服务的效率和有效性，并提升了用户在消费在线内容时的整体体验。

Jun, 2023

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

一种以强化学习为驱动的面向搜索型对话系统的翻译模型

本研究提出了一种基于强化学习的翻译模型框架，该模型以关键字为基础，能够理解使用自然语言表示的信息需求，并通过注入相关反馈，采用单词选择方法来克服缺乏大规模数据集的问题。实验表明，该方法在两个 TREC 数据集上的有效性得到了证明。

Aug, 2018

基于选项框架的任务型对话系统中对话策略和自然语言生成器之间的分层结构建模

本文提出了一种利用层次强化学习方法及潜在会话行为来设计任务导向的对话系统，可有效解决以前使用监督学习和强化学习训练的模型在用户请求满足和生成系统话语的可理解性之间难以平衡的问题，并在测试中与其他模型相比获得了更好的性能表现。

Jun, 2020

自然语言生成增强带有不确定信息的人类决策

本文比较不同的信息表现形式对人类决策的影响，发现使用自然语言生成（NLG）在不确定情况下可以提高决策水平，在 442 名成年人的任务研究中，NLG 的表现相对于图形表现平均要好 24％，而将 NLG 与图形结合使用可使决策水平提高 44％。同时发现，当使用 NLG 输出时，女性的表现显著优于男性（相对于图形表现增加了 87％）。

Jun, 2016

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016