研究了如何通过迭代算法将奖励机器与q-learning相结合,以便在复杂任务中实现快速政策优化。
Sep, 2019
该论文介绍了如何使用奖励机制来支持强化学习中的学习过程,并探讨了如何通过奖励机制结构的利用,来提高样本利用率和最终策略的质量。
Oct, 2020
本文提出使用符号自动机的形式规范,来代替马尔可夫奖励,并定义了使用潜在奖励的策略,来提高强化学习的收敛性。
Feb, 2022
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非Markov领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
Jan, 2023
为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题,提出一种基于奖励机器的任务表示方法,使用抽象状态图与任务奖励动态的相互作用诱导子任务,从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明,该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。
Jul, 2023
我们提出了一种计数奖励自动机——一种能够模拟任何能以形式语言表示的奖励函数的有限状态机变体。与以前的方法不同,这些方法仅能表达任务为正则语言,而我们的框架允许通过无限制语法来描述任务。我们证明了一个配备这样抽象机器的代理能够解决比使用当前方法更多的任务。我们展示了这种表达能力的增加并不需要增加自动机的复杂性。我们提出了一系列利用自动机结构来提高样本效率的学习算法。我们展示了我们的方法在样本效率、自动机复杂性和任务完成方面优于竞争方法的实证结果。
Dec, 2023
本文研究了强化学习中标量马尔可夫奖励函数的表达能力,并确定了其所能表达的局限性。具体而言,我们关注三类强化学习任务;多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别,我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分条件。此外,我们发现标量马尔可夫奖励函数无法表达每个类别中大多数实例。因此,我们为了更全面地了解标准奖励函数能够和不能够表达的内容做出了贡献。除此之外,我们还特别提到模态问题作为一个新的问题类别,因为目前强化学习文献中还没有对其进行系统性研究。我们还简要概述了通过专门的强化学习算法解决我们讨论的某些问题的方法。
Jan, 2024
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练/微调范式,旨在增强LLMs的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
May, 2024
用于嘈杂和不确定环境下的深度强化学习中,通过对任务结构进行利用,我们提出了一套RL算法,成功地提高了在词汇嘈杂的环境下的性能,从而为在部分可观察环境中利用Reward Machines提供了一个通用的框架。
本研究解决了非马尔可夫强化学习任务中的历史状态-动作对考量问题,提出了一种新颖的神经奖励机器(NRM)框架,能够在非符号非马尔可夫环境中进行推理和学习。NRM有效整合了半监督符号基础(SSSG)与强化学习,证明其能够在未掌握符号基础函数的情况下,运用高级符号知识并超越传统深度强化学习方法的性能。研究还提出了一种新算法,用于分析时间规范的基础性,这一方法效率比基线技术高出1000倍。
Aug, 2024