在部分已知语义环境中联合学习奖励机制和策略

Apr, 2022

在部分已知语义环境中联合学习奖励机制和策略

Joint Learning of Reward Machines and Policies in Environments with Partially Known Semantics

Christos Verginis, Cevahir Koprulu, Sandeep Chinchali, Ufuk Topcu

TL;DR该论文研究了强化学习在奖励机制下的任务，提出了一种利用概率估计和 Q-learning 算法的强化学习算法，能够成功推断出奖励机制并且渐进地学习任务的策略，即使环境中的原子命题的真值存在不确定性。

Abstract

We study the problem of reinforcement learning for a task encoded by a reward machine. The task is defined over a set of properties in the environment, called atomic propositions, and represented by Boolean variables. One unrealistic assumption commonly used in the literature is that t

reinforcement learning reward machine probabilistic estimate q-learning uncertainty

发现论文，激发创造

强化学习奖励机制和政策的联合推理

研究了如何通过迭代算法将奖励机器与 q-learning 相结合，以便在复杂任务中实现快速政策优化。

Sep, 2019

噪声与不确定环境中的深度强化学习奖励机制

用于嘈杂和不确定环境下的深度强化学习中，通过对任务结构进行利用，我们提出了一套 RL 算法，成功地提高了在词汇嘈杂的环境下的性能，从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。

May, 2024

深度强化学习中的嘈杂符号抽象：以奖励机器为案例研究

本篇文章提出了一种特殊的 POMDP 优化问题，研究当使用 Reward Machines 作为奖励函数语言时，对于状态到符号语言的映射不确定的情况下，如何通过强化学习生成策略，并通过实验证明了这种方法的有效性和现有方法的局限性。

Nov, 2022

通过预测奖励最大化部分可观测环境中的信息增益

本文着眼于使用基于信念的奖励机制进行深度强化学习，提出了通过最大化任何凸函数的信念来实现近似的预测奖励，为深度强化学习的应用提供了新的解决方案，包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。

May, 2020

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

合作多智能体任务中的奖励机器学习

本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Mar, 2023

一个基于层次贝叶斯的逆强化学习方法，使用符号奖励机器

本研究提出了一种新的 RL 方法，使用符号化奖励机器来增强高级任务知识指定的奖励信号，在确定符号值的情况下，通过贝叶斯方法分层地推断出最可能的分配，可显著提高 RL 训练效率并在不同的任务环境配置中广泛适用。

Apr, 2022

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

学习新任务的策略

本文提出一种强化学习算法，通过自编码器将已发现策略的状态序列进行度量，以此产生新的策略，同时利用两个目标的策略梯度算法在策略更新中权衡任务奖励和新颖度奖励，最终得到一些解决特定任务和具有差异化行动序列的策略，并展示该方法在迷宫导航，机械臂和蹦跳机器人的运动任务以及对抗性任务中的有效性。

May, 2019

通过评估假设行为学习人类目标

通过最大限度地提高信息价值的可跟踪代理来学习用户奖励模型，以与强化学习中未知动态、未知奖励函数和未知不安全状态的用户目标相一致。

Dec, 2019