本文介绍一种使用强化学习进行共参照消解的方法,采用最大边际目标函数,使得在英文和中文 CoNLL 2012 共享任务上表现显著优于现有的技术水平。
Sep, 2016
本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
Jul, 2017
介绍了一种基于神经网络的查询重构系统,使用强化学习训练神经网络,动作是选择术语以建立重构查询,回报是文档召回率,我们在三个数据集上评估了我们的方法,相对 Recall 方面有 5-20% 的改进。此外,我们提供了一种简单方法来估算模型在特定环境中的保守上限性能,并验证存在很大的改进空间。
Apr, 2017
本研究提出了一种基于强化学习的翻译模型框架,该模型以关键字为基础,能够理解使用自然语言表示的信息需求,并通过注入相关反馈,采用单词选择方法来克服缺乏大规模数据集的问题。实验表明,该方法在两个 TREC 数据集上的有效性得到了证明。
Aug, 2018
本文研究了一种深度学习方法,将强化学习和监督学习结合,通过长短时记忆网络对隐藏状态的表示进行学习,在部分可观测任务中表现出了很好的性能。
Sep, 2015
本研究提出一种基于强化学习的方法,将实体链接转换为序列决策问题,全局考虑前面提及的实体,并探索当前选择对后续决策的长期影响,实验证明该模型比现有系统表现更好且具有更好的泛化性能。
Feb, 2019
提出了一种名为 TOLE 的新颖强化学习算法,用于控制大型语言模型的生成,并在单属性和多属性控制任务上取得了优异的性能。
Mar, 2024
本文采用增强学习技术,用连续动作空间得到的强化学习策略替换 ProdLDA 中变分自编码器,采用给 ELBO 损失加权,使用上下文嵌入以及监控每个训练步骤的主题多样性和连贯性等方法,以 11 个数据集为实验对象。我们的无监督模型优于所有其他无监督模型,并与大多数使用监督标记的模型表现相当甚至更好。经验研究表明,我们对 ProdLDA 所做的更改提高了性能,而强化学习配方进一步提高了性能。
May, 2023
提出了一种名为 ELLM(LLM 探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验,证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。
Feb, 2023
通过引入逐步奖励机制,我们的方法在理解和生成任务中对强化学习进行了扩展,实现了平衡优化,提高了任务导向对话系统的性能,并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比,我们的方法还展现了在低资源环境中的出色少样本能力。
Jun, 2024