可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模

May, 2022

可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模

Non-Markovian Reward Modelling from Trajectory Labels via Interpretable Multiple Instance Learning

Joseph Early, Tom Bewley, Christine Evers, Sarvapali Ramchurn

TL;DR本文中，我们将奖励建模应用于处理非马尔可夫奖励的强化学习问题，我们在此基础上移除了现有工作假设的独立反馈观察前提，并扩展了奖励建模以捕捉人类对轨迹的时间依赖关系。我们将其作为多实例学习（MIL）问题，通过将轨迹视为带有返回标签的包，将轨迹中的步骤视为具有未见过奖励标签的实例。我们还开发了新的多实例学习模型，能够捕捉标记轨迹中的时间依赖关系，并在一系列强化学习任务中展示了我们的新模型能够将奖励函数重建到高精度，并能用于训练高性能代理策略。

Abstract

We generalise the problem of reward modelling (RM) for reinforcement learning (RL) to handle non-Markovian rewards. Existing work assumes that human evaluators observe each step in a trajectory independently when

reward modelling reinforcement learning temporal dependencies multiple instance learning agent policies

发现论文，激发创造

贝叶斯逆强化学习用于非马尔可夫奖励

从专家行为中直接推断出奖励机制（RM）的贝叶斯逆强化学习（BIRL）框架，以非 Markovian 奖励函数为基础进行了重大改进，新的奖励空间定义，将专家示范调整为包括历史，展示了计算奖励后验的方法，并提出了一种模拟退火的新修改方案来最大化后验，通过优化其推断的奖励表现出良好性能，并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。

Jun, 2024

非马尔可夫奖励强化学习

研究了在具有非马尔可夫奖励的情况下，采用 Q-learning 和 R-max 算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。

Dec, 2019

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Jun, 2024

使用马尔科夫网络的判别训练进行多实例学习

本文提出了一种基于马尔可夫网络的多实例学习图形框架，可用于建模传统的 MIL 定义以及更一般的 MIL 定义，并在弱监督数据中探索了不同水平的不确定性。为了训练这些模型，我们提出了一种利用基于基数的 cliques 的有效推理的判别最大化边际学习算法。实验结果表明编码或学习不确定性的程度可以提高分类性能。

Sep, 2013

使用经验分类训练非马尔可夫任务

我们提出了一种新颖的强化学习方法，用于实现基于 LTL$_f$（有限轨迹线性时态逻辑）的非马尔可夫奖励，通过 LTL$_f$ 到 MDPs（马尔可夫决策过程）的线性复杂度编码，利用自动机结构（与 LTL$_f$ 规范语义等价）的优先经验回放技术来改善训练过程，在多个引入非马尔可夫任务的基准问题上进行经验证明了我们方法的可行性和有效性。

Oct, 2023

合作多智能体任务中的奖励机器学习

本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Mar, 2023

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

贝叶斯多任务逆向强化学习

本文将逆向强化学习问题推广到多个任务，通过引入一定数量的结构化先验，我们将问题形式化为统计偏好提取。我们展示了我们的框架不仅允许我们从多个专家中有效地学习，而且还可以有效地区分每个专家的目标。

Jun, 2011

半监督离线强化学习与无动作轨迹

通过开发新的算法流程，利用多种数据来源进行线下强化学习，仅使用 10％的数据可以达到与完全有标签的数据集相似的性能，同时进行大规模控制实验，以确定半监督学习应用于 RL 的最佳实践。

Oct, 2022

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018