提出了一种基于深度强化学习(Deep Q-Network, DQN)的序列到序列学习中,通过迭代的方式对输出序列进行解码的新型模式,旨在使解码器优先处理较为容易的序列部分,然后再处理较为困难的部分。
Oct, 2015
本研究探讨了深度强化学习在文本游戏中的应用,提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率,从而解决了应用 DRL 的两个主要挑战。实验结果表明,提出的方法显着提高了性能和样本效率,并且对复合错误和数据有限的预训练表现出鲁棒性。
Mar, 2022
本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制,缓解了部分可观测性,研究了可行动作的不同方法,并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究,结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。
Nov, 2019
本论文提出了一种利用自然语言处理和约束满足技术从文本描述中学习行动模型的方法,通过构建一种新型语言模型提取计划轨迹并建立一组约束条件来生成行动模型。实验结果表明这种方法是有效而高效的。
Feb, 2022
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。
Jun, 2015
本文介绍了一种新的强化学习体系架构,它是专门设计用于处理自然语言状态和动作空间,适用于文本类型游戏。该体系架构称为深度强化相关网络(DRRN),可以将动作和状态空间表示为独立的嵌入向量,并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估,表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明,该模型在提取意义而非仅仅是记忆文本串方面表现出色。
Nov, 2015
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
May, 2020
本文介绍了一种基于深度强化学习的架构,将游戏状态表示为知识图谱,通过剪枝动作空间和转移学习等技术实现了更高效的探索和学习,通过测试表明,此技术可在 TextWorld 平台上更快地学习控制策略。
Dec, 2018
研究文本游戏在强化学习环境下的指令正确率,设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令,通过文字游戏的实验验证该结构化语言指令的有效性和优越性。
Nov, 2022
提出一种新的方法 Text2Quest,将过程文本解释为交互式游戏的说明,以从材料科学论文中提取动作图形。该方法可以补充现有方法,并实现比静态文本更丰富的学习形式。
Nov, 2018