离线强化学习中有限数据处理的领域知识整合

Jun, 2024

离线强化学习中有限数据处理的领域知识整合

Integrating Domain Knowledge for handling Limited Data in Offline RL

Briti Gangopadhyay, Zhao Wang, Jia-Fong Yeh, Shingo Takamatsu

TL;DR通过领域知识约束和自适应改进初步的领域知识，该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习（RL）算法，并通过对标准离散环境数据集的实证评估，显示相比于现有离线 RL 算法，性能至少提升了 27%。

Abstract

With the ability to learn from static datasets, Offline Reinforcement Learning (RL) emerges as a compelling avenue for real-world applications. However, state-of-the-art offline rl algorithms perform sub-optimally when confronted with →

offline reinforcement learning domain knowledge-based regularization limited data substantial average performance increase offline rl algorithms

发现论文，激发创造

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

超越 OOD 状态行为：支持跨域离线强化学习

本文提出了交叉领域离线强化学习方法 BOSA，通过利用来自不同转移动态（环境）的源领域数据，解决了离线 RL 中存在的数据效率不高的问题，并通过实验证明其在离线数据效率方面的有效性。

Jun, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020

自适应行为正则化的离线强化学习

本文提出了自适应行为正则化（ABR）的方法改善已有机器学习数据集中存在的行为采样偏差，从而提高了离线强化学习的效率和稳定性，并在 D4RL 数据集上实现了最新算法中更好或相当的性能。

Nov, 2022

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022