风险规避的批次主动逆向奖励设计

Nov, 2023

风险规避的批次主动逆向奖励设计

Risk-averse Batch Active Inverse Reward Design

Panagiotis Liampas

TL;DR通过批处理逐渐优化查询的可能奖励函数的概率分布，在保证安全性的同时，提高效率和准确性，以及适应处理未知特征并对重要的 AI 模型进行调整。

Abstract

Designing a perfect reward function that depicts all the aspects of the intended behavior is almost impossible, especially generalizing it outside of the training environments. active inverse reward design (AIRD)

reward function active inverse reward design risk-averse batch active inverse reward design unknown features adaptability

发现论文，激发创造

主动反向奖励设计

通过与用户交互，选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计，我们的方法优于 Inverse Reward Design，且可以推断非线性奖励函数，包括可解释的线性奖励函数。

Sep, 2018

反向奖励设计

设计奖励函数的困难性和可能带来的负面影响，本文介绍一种基于上下文推断真实目标的方法，以及应用该方法规避不当奖励导致的风险。实证研究表明，本方法有效减轻了误设奖励函数的负面影响，并减少了奖励欺骗的可能。

Nov, 2017

风险感知主动逆强化学习

本文提出一种风险感知主动逆强化学习算法，旨在最小化机器人正在学习的策略的性能风险，并将主动查询集中在具有潜在大通用误差的状态空间区域，证明该算法在网格世界、模拟驾驶和桌子铺设任务上优于标准主动逆强化学习方法，并提供一种基于性能的停止准则，使机器人知道何时已接受足够的演示以安全地执行任务。

Jan, 2019

通过对抗逆强化学习学习鲁棒奖励

本文提出了一种新颖的反向强化学习算法，基于对抗奖励学习框架，该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性，提高了强化学习的性能和应用范围。

Oct, 2017

多智能体对抗逆强化学习

本文提出了一种新的多智能体逆强化学习框架（MA-AIRL），有效地解决了高维空间和未知动态的马尔科夫博弈问题，并展示了在策略模仿方面，MA-AIRL 显著优于现有方法。

Jul, 2019

逆强化学习的主动探索

本文提出使用主动探索策略的逆强化学习算法（AceIRL），该算法通过构造置信区间捕捉潜在的奖励函数，寻找信息最充分的环境区域的探索策略，从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法，并与具备环境生成模型情况下的样本复杂度相匹配，在模拟实验中证明 AceIRL 优于其他探索策略。

Jul, 2022

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

贝叶斯逆强化学习用于非马尔可夫奖励

从专家行为中直接推断出奖励机制（RM）的贝叶斯逆强化学习（BIRL）框架，以非 Markovian 奖励函数为基础进行了重大改进，新的奖励空间定义，将专家示范调整为包括历史，展示了计算奖励后验的方法，并提出了一种模拟退火的新修改方案来最大化后验，通过优化其推断的奖励表现出良好性能，并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。

Jun, 2024

逆强化学习建模和解释现实世界中的人类风险决策

使用反强化学习 (IRL) 模型人类决策行为，以理解人类在面临风险时的决策，提出历史状态对人类奖励函数具有影响力的假设，并设计反映这些因素的特征。结果表明，IRL 是一种有效的刻画人类决策行为的工具，并帮助解释人类在面临风险决策中的心理过程。

Jun, 2019

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019