- 贝叶斯逆强化学习用于非马尔可夫奖励
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化 - ICMLEvIL:演化策略用于可广泛应用的模仿学习
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
- RILe: 强化模仿学习
RILe 是一个学生 - 教师系统,通过根据学生的表现和与专家演示的一致性动态调整奖励函数,实现对不完美数据的鲁棒性,并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。
- 通过正则化逆强化学习实现奖励可转移性
逆强化学习旨在从专家示范中推断出奖励,但奖励与最优策略不唯一,本文提出主角度作为衡量转移规律相似性和差异性的更精细度量,建立了两个关键结果:1)当学习来自至少两个转移规律明显不同的专家时,对任何转移规律的可转移性提供了足够条件;2)当从单个 - 逆凹效用增强学习即逆博弈论
我们提出了新的逆反强化学习问题的理论框架,将 concave function 应用于 CURL,并创造性地将其等效于 mean-field games 的逆博弈理论问题,从而揭示了 CURL 问题与传统逆强化学习不同的特性和挑战。
- 从人类演示中学习奖励优化 SFT 数据:提高 LLM 对齐的方法
对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法,通过学习奖励模型来代替直接使用人类示范数据,并且在整个对齐过程中从始至终地利用奖励学习,取得了显著的性能提升。
- ICML一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架
这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。
- 稳定的逆强化学习:控制 Lyapunov 景观的政策
通过学习专家示范来灵活地编程自主系统以实现复杂行为,或者预测代理行为是一个强大的工具,特别是在协同控制环境中。我们提出了一种新颖的稳定性认证逆优化奖励学习法,通过将代价函数推断问题重新表述为从示范数据中学习控制李亚普诺夫函数。我们利用闭合形 - 无模型熵正则化逆强化学习算法的收敛性
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我 - 逆向强化学习的自动特征选择
逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法,通过使用线性组合特征表示奖励,借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题,并利用轨迹概率与特征期望之间的关联对特征进行选择,实验表明该方法能够恢复捕获专家策略的 - 量化逆强化学习对错误规范的敏感性
逆向强化学习(IRL)的关键问题是行为模型的错配性对结果的影响,本研究对此进行敏感性分析,并分析参数值和模型参数错配对结果的影响。
- 离线逆强化学习:新的解决方案概念和可证明高效算法
逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO - 混合逆强化学习
我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索,通过专家数据在训练过程中引导学习者,从而缩小小型逆强化学习问题的交互过程,取得了较好的策略表现。
- 基于原则的惩罚方法在双层强化学习和 RLHF 中的应用
通过惩罚的形式引入首个系统的算法框架,解决了新的双层强化学习问题,包括激励设计、逆向强化学习和人类反馈强化学习,通过在 Stackelberg Markov 游戏、人类反馈强化学习和激励设计中的模拟验证了算法的有效性。
- 加速逆强化学习与专家引导
通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中 - 逆强化学习中悲观主义的优点
通过使用离线 RL 算法作为 IRL 过程的一部分,我们能够更有效地找到与专家表现相匹配的策略。
- 通过估计演示者的专业知识进行逆强化学习
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线 - 神经策略风格转化
通过神经策略风格转移(NPST)算法,将样式从一个策略转移到另一个策略,同时保持后者的内容。在实验中,通过深度强化学习和逆向强化学习训练不同类型的策略,并利用三种不同的 Q 网络架构进行编码,并比较每种架构在实验中的结果。
- 具有次优专家的逆强化学习
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
- 自主 Formula SAE 车辆的局部路径跟踪的深度强化学习
使用深度强化学习(DRL)和逆强化学习(IRL)将局部观察到的锥体位置映射到期望的转向角度以进行赛道跟踪。两种先进算法,软演员批评(SAC)和对抗逆强化学习(AIRL),在代表性模拟中训练模型。在仿真和现实世界中进行的测试表明,这两种算法都