基于转移的提及检测的强化学习

NIPSMar, 2017

Reinforcement Learning for Transition-Based Mention Detection

Georgiana Dinu, Wael Hamza, Radu Florian

TL;DR本文利用强化学习方法，提出一种基于动作的新颖方案用于实体识别的任务，并使用训练集生成实例级别的事件，同时还使用奖励模型获得正确标记完成的实例，从而提高了长实例的内部结构并且结果与竞争性有监督的对照组相当。

Abstract

This paper describes an application of reinforcement learning to the mention detection task. We define a novel action-based formulation for the mention detection task, in which a model can flexibly revise past la

reinforcement learning mention detection action-based formulation partial mention labels reward modeling

发现论文，激发创造

基于深度强化学习的提及排序共指消解模型

本文介绍一种使用强化学习进行共参照消解的方法，采用最大边际目标函数，使得在英文和中文 CoNLL 2012 共享任务上表现显著优于现有的技术水平。

Sep, 2016

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

任务导向的强化学习查询重构

介绍了一种基于神经网络的查询重构系统，使用强化学习训练神经网络，动作是选择术语以建立重构查询，回报是文档召回率，我们在三个数据集上评估了我们的方法，相对 Recall 方面有 5-20% 的改进。此外，我们提供了一种简单方法来估算模型在特定环境中的保守上限性能，并验证存在很大的改进空间。

Apr, 2017

一种以强化学习为驱动的面向搜索型对话系统的翻译模型

本研究提出了一种基于强化学习的翻译模型框架，该模型以关键字为基础，能够理解使用自然语言表示的信息需求，并通过注入相关反馈，采用单词选择方法来克服缺乏大规模数据集的问题。实验表明，该方法在两个 TREC 数据集上的有效性得到了证明。

Aug, 2018

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

深度强化学习的联合实体链接

本研究提出一种基于强化学习的方法，将实体链接转换为序列决策问题，全局考虑前面提及的实体，并探索当前选择对后续决策的长期影响，实验证明该模型比现有系统表现更好且具有更好的泛化性能。

Feb, 2019

基于令牌级反馈的强化学习可控文本生成

提出了一种名为 TOLE 的新颖强化学习算法，用于控制大型语言模型的生成，并在单属性和多属性控制任务上取得了优异的性能。

Mar, 2024

主题模型的强化学习

本文采用增强学习技术，用连续动作空间得到的强化学习策略替换 ProdLDA 中变分自编码器，采用给 ELBO 损失加权，使用上下文嵌入以及监控每个训练步骤的主题多样性和连贯性等方法，以 11 个数据集为实验对象。我们的无监督模型优于所有其他无监督模型，并与大多数使用监督标记的模型表现相当甚至更好。经验研究表明，我们对 ProdLDA 所做的更改提高了性能，而强化学习配方进一步提高了性能。

May, 2023

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

奖励关键之处：面向任务的对话的逐步强化学习

通过引入逐步奖励机制，我们的方法在理解和生成任务中对强化学习进行了扩展，实现了平衡优化，提高了任务导向对话系统的性能，并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比，我们的方法还展现了在低资源环境中的出色少样本能力。

Jun, 2024