通过对序列的偏好查询学习奖励机器
通过学习奖励机制,将非马尔可夫奖励函数映射为等效的马尔可夫函数,证明了奖励机制相对于确定性有限状态自动机对于建模单一自动机中的奖励依赖性的重要性,并通过在 Officeworld 领域学习黑盒非马尔可夫奖励函数以及在 Breakfastworld 领域学习奖励之间的依赖关系的有效性来验证了我们的方法。
Jan, 2024
本篇文章提出了一种特殊的 POMDP 优化问题,研究当使用 Reward Machines 作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。
Nov, 2022
用于嘈杂和不确定环境下的深度强化学习中,通过对任务结构进行利用,我们提出了一套 RL 算法,成功地提高了在词汇嘈杂的环境下的性能,从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。
May, 2024
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。
Dec, 2022
为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题,提出一种基于奖励机器的任务表示方法,使用抽象状态图与任务奖励动态的相互作用诱导子任务,从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明,该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。
Jul, 2023
通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。
Feb, 2024
本研究提出了一种新的 RL 方法,使用符号化奖励机器来增强高级任务知识指定的奖励信号,在确定符号值的情况下,通过贝叶斯方法分层地推断出最可能的分配,可显著提高 RL 训练效率并在不同的任务环境配置中广泛适用。
Apr, 2022
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
Jul, 2020
该论文研究了强化学习在奖励机制下的任务,提出了一种利用概率估计和 Q-learning 算法的强化学习算法,能够成功推断出奖励机制并且渐进地学习任务的策略,即使环境中的原子命题的真值存在不确定性。
Apr, 2022