通过词汇预测加速强化学习句子生成
本文提出了一种句子级或批量级词汇表来缓解神经机器翻译模型中需使用大词汇表的问题。此方法根据源句子中每个单词或短语的翻译选项,选择非常小的目标词汇表,并基于单词翻译模型或双语短语库来实现。实验结果表明,该方法在英法翻译任务中的 BLEU 分数比 Jean 等人使用大词汇表的神经机器翻译系统高 1 个点。
May, 2016
使用 n-gram 语言先验约束动作空间的强化学习方法在图像字幕生成任务上取得了更好的可读性和收敛速度,同时解决了由精度优化引起的偏见和稳定性问题。
Sep, 2018
本文研究聊天机器人开放领域的回答生成。我们提出了一种动态词汇序列到序列(DVS2S)模型,它允许每个输入在解码时拥有自己的词汇。DVS2S 避免了许多通用模式和无关单词的生成,并同时享有高效的解码。实验结果表明 DVS2S 的回答质量明显优于最先进的方法,但仅需要 60%的解码时间。
Nov, 2017
基于强化学习算法的学习历史的监督预训练,通过与环境的交互,能够捕捉学习过程并在上下文中改善对新任务的处理。然而,现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法,通过预测行为嵌入来消除对行为数量的依赖,并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验,证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。
Dec, 2023
该研究提出了一种新颖的潜在动作框架,将端到端会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。
Feb, 2019
该研究提出了一种交互式预测神经机器翻译的方法,通过人类质量判断和基于熵的不确定性准则来降低人力需求以及实现在线模型参数的更新,模拟实验表明这种方法可以显著提高翻译质量并将人力需求控制在一个较低的水平。
May, 2018
通过聚类和基于自然语言处理的记号化技术,我们提出了一种新颖的技能生成方法,用于解决稀疏回报强化学习中的探索问题,并在多个具有挑战性的稀疏回报任务中表现优于基准方法,而且在技能生成和在线训练过程中计算资源消耗大大降低。
Sep, 2023
本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题,一是使用大规模预训练语言模型来学习更好的文本表示,二是提出一种随机采样方案来减小训练和测试中动作的差距,从而使智能体可以在长序列的动作解码过程中学习自我纠正,将两项技术结合,成功地在 Room-to-Room 基准测试中取得了新的最优性能,以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。
Sep, 2019
提出了一种新的方法,在无监督文本风格转换任务中使用强化学习,通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题,相较于当前的奖励塑造方法,使用密集奖励提高了 22%的风格转换质量,同时训练效率提高了 2.5 倍,速度提高了 7 倍。
Apr, 2022