通过词汇预测加速强化学习句子生成

ACLSep, 2018

通过词汇预测加速强化学习句子生成

Accelerated Reinforcement Learning for Sentence Generation by Vocabulary Prediction

Kazuma Hashimoto, Yoshimasa Tsuruoka

TL;DR通过使用动态词汇预测的方法来缩小活动空间，从而提高了基于强化学习的句子生成效率，在 6 个机器翻译和 2 个图像字幕数据集上的实验证明，该方法比全词汇方法更快，使用的 GPU 内存更少，并且在 CPU 上的解码速度也更快，并且强化学习的 BLEU 分数得到了显著提高。

Abstract

A major obstacle in reinforcement learning-based sentence generation is the large action space whose size is equal to the vocabulary size of the target-side language. To improve the efficiency of →

reinforcement learning sentence generation dynamic vocabulary prediction machine translation image captioning

发现论文，激发创造

神经机器翻译中大动作空间的强化学习

通过减少词汇量和有效减少行动空间，以提高强化学习在神经机器翻译中的表现，取得了显著的 BLEU 分数改善，即平均 1.5 分。

Oct, 2022

神经机器翻译的词汇操作

本文提出了一种句子级或批量级词汇表来缓解神经机器翻译模型中需使用大词汇表的问题。此方法根据源句子中每个单词或短语的翻译选项，选择非常小的目标词汇表，并基于单词翻译模型或双语短语库来实现。实验结果表明，该方法在英法翻译任务中的 BLEU 分数比 Jean 等人使用大词汇表的神经机器翻译系统高 1 个点。

May, 2016

利用自然语言先验提升基于强化学习的图像标注

使用 n-gram 语言先验约束动作空间的强化学习方法在图像字幕生成任务上取得了更好的可读性和收敛速度，同时解决了由精度优化引起的偏见和稳定性问题。

Sep, 2018

动态词汇神经响应生成

本文研究聊天机器人开放领域的回答生成。我们提出了一种动态词汇序列到序列（DVS2S）模型，它允许每个输入在解码时拥有自己的词汇。DVS2S 避免了许多通用模式和无关单词的生成，并同时享有高效的解码。实验结果表明 DVS2S 的回答质量明显优于最先进的方法，但仅需要 60％的解码时间。

Nov, 2017

变动动作空间下的环境感知强化学习

基于强化学习算法的学习历史的监督预训练，通过与环境的交互，能够捕捉学习过程并在上下文中改善对新任务的处理。然而，现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法，通过预测行为嵌入来消除对行为数量的依赖，并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验，证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。

Dec, 2023

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Feb, 2019

一种交互式预测神经机器翻译的强化学习方法

该研究提出了一种交互式预测神经机器翻译的方法，通过人类质量判断和基于熵的不确定性准则来降低人力需求以及实现在线模型参数的更新，模拟实验表明这种方法可以显著提高翻译质量并将人力需求控制在一个较低的水平。

May, 2018

子词作为技能：稀疏奖励强化学习的分词器

通过聚类和基于自然语言处理的记号化技术，我们提出了一种新颖的技能生成方法，用于解决稀疏回报强化学习中的探索问题，并在多个具有挑战性的稀疏回报任务中表现优于基准方法，而且在技能生成和在线训练过程中计算资源消耗大大降低。

Sep, 2023

具备语言预训练和随机采样的稳健导航

本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题，一是使用大规模预训练语言模型来学习更好的文本表示，二是提出一种随机采样方案来减小训练和测试中动作的差距，从而使智能体可以在长序列的动作解码过程中学习自我纠正，将两项技术结合，成功地在 Room-to-Room 基准测试中取得了新的最优性能，以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。

Sep, 2019

无监督控制文本生成的高效强化学习

提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍。

Apr, 2022