马尔可夫决策过程的鲁棒奖励设计

Jun, 2024

马尔可夫决策过程的鲁棒奖励设计

Robust Reward Design for Markov Decision Processes

Shuo Wu, Haoxiang Ma, Jie Fu, Shuo Han

TL;DR回报设计问题研究了领导者与追随者之间的相互作用，其中领导者通过修改追随者的奖励函数来塑造追随者的行为以最大化领导者的回报。现有的奖励设计方法依赖于准确模拟追随者对奖励调整的反应，而这可能对模型不准确性敏感。为了解决这个敏感性问题，我们提出了一种解决方案，能够对模型中追随者的不确定性具有鲁棒性，包括：1) 追随者在存在非唯一最佳反应时如何决策；2) 对追随者知觉奖励调整方式的不精确了解；3) 追随者的有限理性。我们的鲁棒解决方案在一定条件下得到保证，并可通过求解混合整数线性规划来获得数值解。对多个测试案例的数值实验表明，我们的解决方案相较于标准方法具有更好的鲁棒性，而且计算成本相对较低。

Abstract

The problem of reward design examines the interaction between a leader and a follower, where the leader aims to shape the →

reward design interaction follower sensitivity robustness

发现论文，激发创造

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的 ' 成本 '，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

鲁棒平均奖励马尔科夫决策过程

本篇论文研究鲁棒平均回报 MDP 问题，旨在找到一种策略，使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题，证明了当折扣因子趋近于 1 时，鲁棒折扣价值函数收敛于鲁棒平均回报，并设计了鲁棒动态规划方法。同时，也考虑了直接处理鲁棒平均回报 MDP 问题的情况，并导出了其鲁棒 Bellman 方程，设计了一种鲁棒相对价值迭代算法来求解其策略。

Jan, 2023

约束递归限制在受限制的强化学习中以防止不稳定性

考虑在马尔可夫决策过程中找到一种确定性策略，该策略统一（在所有状态下）最大化一种奖励，同时受到不同奖励的概率约束。本文提出了一种适当的约束强化学习算法来防止学习不稳定性，并使用递归约束描述了我们的问题的动机和适用性。

Jan, 2022

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

针对奖励转移的稳健决策导向学习

本文提出了一种强化学习算法，称为 “鲁棒的决策模型算法”，该模型能够同时满足奖励函数的变化和期望回报的最大化。实验证明该算法显著提高了智能体在奖励函数变化时的鲁棒性，同时不降低总体回报。

Apr, 2023

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013