互信息正则化的离线强化学习

Oct, 2022

Mutual Information Regularized Offline Reinforcement Learning

Xiao Ma, Bingyi Kang, Zhongwen Xu, Min Lin, Shuicheng Yan

TL;DR本文提出一种基于互信息的新框架 (MISA)，用于解决离线强化学习中的分布偏移问题，通过直接限制策略改进方向来有效地利用行动和状态之间的相互依赖关系，同时在策略评估和改进中增加相互信息的正则化。

Abstract

offline reinforcement learning (RL) aims at learning an effective policy from offline datasets without active interactions with the environment. The major challenge of offline RL is the distribution shift that ap

offline reinforcement learning distribution shift misa framework policy improvement mutual information

发现论文，激发创造

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

基于模型的离线元强化学习与正则化

该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO，使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡，对元强化学习算法进行了改进，并在实验中取得了优异的表现。

Feb, 2022

信其所见：离线多智能体强化学习的隐式约束方法

本文介绍了一种新的离线强化学习算法 ICQ，它通过只信任数据集中的状态 - 动作对来有效减轻外推误差，并将其扩展到多智能体任务中，表现出明显的性能优势。

Jun, 2021

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性，就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限，并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线元强化学习与基于数据分布的在线适应

本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ，该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移，实现了元 - 强化学习的任务自适应和较高的性能表现。

May, 2023

MIR2: 通过相互信息正则化迈向可证实鲁棒性的多智能体强化学习

提出一种名为 MIR2 的方法，通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性，实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。

Oct, 2023

离线强化学习中有限数据处理的领域知识整合

通过领域知识约束和自适应改进初步的领域知识，该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习（RL）算法，并通过对标准离散环境数据集的实证评估，显示相比于现有离线 RL 算法，性能至少提升了 27%。

Jun, 2024

利用信息正则化学会共享与隐藏意图

本研究提出一种信息理论规则化方法，以学习多智能体强化学习中的合作和竞争策略，结果在两个简单的非对称信息博弈中表明，使用我们提出的方法学习到的合作（竞争）策略会带来更多（更少）的奖励。

Aug, 2018

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020