- 如何避免被 Grue 吞噬:构建探索策略应对文本世界
我们介绍了 Q*Bert 和 MC!Q*BERT 两个代理,在自然语言状态 - 动作空间中通过回答问题构建知识图谱来提高样本效率,并通过探索策略和内在动机检测瓶颈来有效探索空间,在九个文本游戏中超越了当前最先进的方法,包括 Zork 游戏。
- 学习动态信念图以推广文本游戏
通过使用端到端学习的图形结构表示,我们提出一种新颖的图形辅助转换器代理(GATA),并探究其如何计划和推广文本游戏,并证明学习到的基于图形的表示有助于代理人收敛到比纯文本模型更好的策略,促进游戏配置的有效推广。
- 避免被格鲁怪兽吃掉:文字冒险游戏智能体的探索策略
利用知识图谱方法增强自然语言交互式文本游戏探索策略,克服了强化学习在处理大规模操作空间时的效率问题,在 Zork1 中成功解决了先前困扰代理的瓶颈问题。
- IJCAI基于探索的基于文本游戏的语言学习
本文介绍一种采用探索和模仿学习的代理程序,能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型,实现了更高效的解决文本游戏和更强的泛化能力。
- AAAI应用于交互小说的深度强化学习算法改进
本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制,缓解了部分可观测性,研究了可行动作的不同方法,并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究,结果表明这些技术 - LeDeepChef:基于深度强化学习的文本游戏 AI
本文介绍了我们设计的一种深度强化学习代理 LeDeepChef,它具有在同一游戏系列中表现良好的泛化能力。我们使用演员 - 评论家框架和分层强化学习的思想以及针对食谱数据库训练的专门模块进行了动作空间修剪。该代理在 Microsoft Re - IJCAI行动组合:针对文本游戏中组合行动空间的稀疏模仿学习
本研究提出了一个计算效率高的算法,结合压缩感知和模仿学习,用来解决具有组合动作空间的基于文本的游戏。研究表明,将新的压缩感知算法 IK-OMP 结合到监督式模仿学习中,所得到的稀疏模仿学习算法 (Sparse-IL),无论是在完美演示还是嘈 - 学会什么不去学:深度强化学习中的动作排除
该研究提出了一种名为 AE-DQN 的深度强化学习算法,该算法结合了 Action Elimination Network,并且通过外部环境的淘汰信号来优化选择更优的行为,该算法在纯文本游戏中取得了显著的优势。
- IJCAITextWorld:基于文本的游戏学习环境
TextWorld 是为训练和评估基于强化学习的 RL agents 在基于文本的游戏上而设计的一个 Python 库,该文献使用 TextWorld 构建基于强化学习形式主义的基准游戏,并评估了几个基线代理。
- 基于文本游戏的语言扩展
本文探讨了使用基于深度强化学习的代理人在多个基于文本的游戏中进行学习,并通过策略蒸馏方法扩展其词汇,并将文本游戏用作测试平台以更详细地分析和理解策略蒸馏方法的应用。
- ACL使用自然语言行动空间的深度强化学习
本文介绍了一种新的强化学习体系架构,它是专门设计用于处理自然语言状态和动作空间,适用于文本类型游戏。该体系架构称为深度强化相关网络(DRRN),可以将动作和状态空间表示为独立的嵌入向量,并通过交互函数与 Q 函数一起拟合以实现强化学习。在两 - EMNLP使用深度强化学习的基于文本游戏的语言理解
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。