通过对序列的偏好查询学习奖励机器

Aug, 2023

通过对序列的偏好查询学习奖励机器

Learning Reward Machines through Preference Queries over Sequences

Eric Hsiung, Joydeep Biswas, Swarat Chaudhuri

TL;DR用于学习奖励机制的新算法 REMAP，通过引入偏好查询替代成员查询并利用符号观测表、统一和约束求解来缩小奖励机制的搜索空间，具有正确性和终止性保证。

Abstract

reward machines have shown great promise at capturing non-Markovian reward functions for learning tasks that involve complex action sequencing. However, no algorithm currently exists for →

reward machines learning weak feedback preferences remap

发现论文，激发创造

检测隐藏的触发器：将非马尔可夫奖励函数映射到马尔可夫

通过学习奖励机制，将非马尔可夫奖励函数映射为等效的马尔可夫函数，证明了奖励机制相对于确定性有限状态自动机对于建模单一自动机中的奖励依赖性的重要性，并通过在 Officeworld 领域学习黑盒非马尔可夫奖励函数以及在 Breakfastworld 领域学习奖励之间的依赖关系的有效性来验证了我们的方法。

Jan, 2024

深度强化学习中的嘈杂符号抽象：以奖励机器为案例研究

本篇文章提出了一种特殊的 POMDP 优化问题，研究当使用 Reward Machines 作为奖励函数语言时，对于状态到符号语言的映射不确定的情况下，如何通过强化学习生成策略，并通过实验证明了这种方法的有效性和现有方法的局限性。

Nov, 2022

噪声与不确定环境中的深度强化学习奖励机制

用于嘈杂和不确定环境下的深度强化学习中，通过对任务结构进行利用，我们提出了一套 RL 算法，成功地提高了在词汇嘈杂的环境下的性能，从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。

May, 2024

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

深度强化学习中奖励机制抽象的上下文预规划，以增强迁移能力

为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题，提出一种基于奖励机器的任务表示方法，使用抽象状态图与任务奖励动态的相互作用诱导子任务，从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明，该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。

Jul, 2023

批量主动学习基于人类偏好的奖励函数

通过批次主动的偏好学习方法，本研究开发了一组新的算法，能够有效学习奖励函数并在短时间内生成少量查询，实验结果表明该算法在机器人学习中的多种任务上表现良好。

Feb, 2024

一个基于层次贝叶斯的逆强化学习方法，使用符号奖励机器

本研究提出了一种新的 RL 方法，使用符号化奖励机器来增强高级任务知识指定的奖励信号，在确定符号值的情况下，通过贝叶斯方法分层地推断出最可能的分配，可显著提高 RL 训练效率并在不同的任务环境配置中广泛适用。

Apr, 2022

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

在部分已知语义环境中联合学习奖励机制和策略

该论文研究了强化学习在奖励机制下的任务，提出了一种利用概率估计和 Q-learning 算法的强化学习算法，能够成功推断出奖励机制并且渐进地学习任务的策略，即使环境中的原子命题的真值存在不确定性。

Apr, 2022

整合人类演示和偏好的学习奖励函数

该研究提出了 DemPref 框架，结合演示和偏好查询来学习奖励函数，其对标准偏好学习方法具有更高的效率和更好的性能。

Jun, 2019