强化学习奖励机制和政策的联合推理
该论文研究了强化学习在奖励机制下的任务,提出了一种利用概率估计和 Q-learning 算法的强化学习算法,能够成功推断出奖励机制并且渐进地学习任务的策略,即使环境中的原子命题的真值存在不确定性。
Apr, 2022
本研究提出了一种新的 RL 方法,使用符号化奖励机器来增强高级任务知识指定的奖励信号,在确定符号值的情况下,通过贝叶斯方法分层地推断出最可能的分配,可显著提高 RL 训练效率并在不同的任务环境配置中广泛适用。
Apr, 2022
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
Jul, 2020
本文探讨了利用奖励机制来实现高级任务的多智能体强化学习算法 QRM-SG,能在 Nash 平衡下在多智能体系统中学习最优策略,并且在三个案例研究中证明了其有效性。
May, 2023
本篇文章提出了一种特殊的 POMDP 优化问题,研究当使用 Reward Machines 作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。
Nov, 2022
本文研究利用奖励机器(RMs)来指定奖励函数,从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习(MARL)问题。我们提出了具有层次结构的高级事件的多智能体强化学习(MAHRM),能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况,通过分解任务为一系列更简单的子任务,并分配给少量智能体来减少整体计算复杂性。在三个合作 MARL 领域的实验结果表明,MAHRM 在使用相同的高级事件先前知识时优于其他 MARL 方法。
Mar, 2024
该研究提出了一种基于机器教学的逆强化学习方法,利用最小数量的演示数据来学习策略并提高泛化性能。同时,还发展了一个新的学习方法,在一些应用中可以从信息丰富的演示数据中更加高效地学习到奖励函数。
May, 2018
用于嘈杂和不确定环境下的深度强化学习中,通过对任务结构进行利用,我们提出了一套 RL 算法,成功地提高了在词汇嘈杂的环境下的性能,从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。
May, 2024
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。
Dec, 2022