关于增强学习中客观规范形式表达能力的研究

Oct, 2023

关于增强学习中客观规范形式表达能力的研究

On The Expressivity of Objective-Specification Formalisms in Reinforcement Learning

Rohan Subramani, Marcus Williams, Max Heitmann, Halfdan Holm, Charlie Griffin...

TL;DR通过广泛比较17种强化学习目标规范形式的表达能力，我们发现不同形式主义存在多种限制，并未找到一种同时具有主导性表达能力和当前技术下优化简便性的形式主义。这些发现对策略优化和奖励学习有重要影响，并强调了未来研究在奖励学习方法中适应多种形式主义的需求，因为许多现有奖励学习方法隐含地假设所需目标可以用马尔可夫奖励来表达。我们的工作有助于更全面地了解不同强化学习目标规范形式的成本和收益。

Abstract

To solve a task with reinforcement learning (RL), it is necessary to formally specify the goal of that task. Although most RL algorithms require that the goal is formalised as a Markovian reward function, alternatives have been developed (such as Linear Temporal Logic and Multi-Objecti

发现论文，激发创造

强化学习中任务规范的统一

介绍了一种RL任务形式化的方法，通过简单的构造实现了不同任务设置的统一，包括状态转移折扣的概括；并拓展了标准学习构造和部分理论结果，提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。

Sep, 2016

具有时态逻辑奖励的强化学习

本文提出了Truncated Linear Temporal Logic (TLTL)以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和Baxter机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

一种适用于强化学习任务的组合规格语言

提出一种用于规定复杂控制任务的语言并实现在工具SPECTRL中的算法，可以将任务规定编译为奖励函数并自动进行奖励形状。

Aug, 2020

关于马尔可夫奖励的表现力

本论文研究奖励作为捕捉代理应执行任务的方式的表达能力，并针对可期望的三种新的任务抽象概念（接受的行为集、行为的偏序关系或轨迹的偏序关系），提供了一组构造马尔可夫奖励函数的多项式时间算法，使代理能够优化每种类型的任务，并正确判断不存在这种奖励函数的情况。最后通过实证研究证实了理论发现。

Nov, 2021

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

离散阶乘表示作为目标条件强化学习的抽象

提出了一种称为DGRL的方法，该方法通过学习目标的阶乘表示，并通过离散化瓶颈进行处理，以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战；实验证明应用离散化瓶颈可以提高目标条件下的RL设置的性能。

Nov, 2022

深度强化学习中的嘈杂符号抽象：以奖励机器为案例研究

本篇文章提出了一种特殊的POMDP优化问题，研究当使用Reward Machines作为奖励函数语言时，对于状态到符号语言的映射不确定的情况下，如何通过强化学习生成策略，并通过实验证明了这种方法的有效性和现有方法的局限性。

Nov, 2022

多维马尔可夫奖励的表达能力

我们研究了不确定性下的序贯决策中马尔可夫奖励的表达能力，通过将马尔可夫决策过程(MDPs)中的奖励函数视为代理行为的特征化手段，研究了是否存在一种标量或多维度马尔可夫奖励函数，使得这个集合中的策略比其他策略更具吸引力。我们的主要结果给出了这样的奖励函数存在的必要和充分条件，同时也证明了对于任意非退化的确定性策略集合，都存在一个多维度的马尔可夫奖励函数来描述它。

Jul, 2023

关于马尔可夫奖励在表达多目标、风险敏感和模态任务方面的限制

本文研究了强化学习中标量马尔可夫奖励函数的表达能力，并确定了其所能表达的局限性。具体而言，我们关注三类强化学习任务；多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别，我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分条件。此外，我们发现标量马尔可夫奖励函数无法表达每个类别中大多数实例。因此，我们为了更全面地了解标准奖励函数能够和不能够表达的内容做出了贡献。除此之外，我们还特别提到模态问题作为一个新的问题类别，因为目前强化学习文献中还没有对其进行系统性研究。我们还简要概述了通过专门的强化学习算法解决我们讨论的某些问题的方法。

Jan, 2024

通过最优性保持转换到平均奖励的强化学习与线性时序逻辑和ω-正则目标

本研究解决了强化学习中线性时序逻辑（LTL）和ω-正则目标与传统折扣和平均奖励目标之间的关系这一问题。提出了一种新的方法，通过有限记忆奖励机器以最优性保持的方式将ω-正则目标转换为极限平均奖励问题。研究显示，LTL和ω-正则目标的最优策略可以逐步学习，从而填补了该领域的一个空白。

Oct, 2024