本次调查综述了文献中用于构建自然语言状态表示的策略,呼吁使用更容易理解且有基础的语言表示方法、仔细评估策略及对设计决策进行详细解释。
Jul, 2020
提出了将自然语言理解与强化学习紧密结合的想法,并对现有技术及未来研究方向进行了调研。
Jun, 2019
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。
Jun, 2015
强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则,以及结合大型语言模型的先进技术如 GPT-4 的实现方式,NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。
Feb, 2024
通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力,我们设计了一个框架,将语言作为核心推理工具,能够处理一系列强化学习挑战,如有效的探索、重用经验数据、调度技能以及从观察中学习,从而改进了在模拟的机器人操作环境中的性能,并展示了如何利用学到的技能解决新任务或模仿人类专家视频。
Jul, 2023
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
本文介绍了一种利用自然语言驱动强化学习传递的方法,并使用模型化强化学习方法和实体描述等技术,在不同环境下实现了更好的性能表现。
Aug, 2017
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
Mar, 2019
本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
Jul, 2017
本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力,实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题,促进算法性能的提高。
Apr, 2022