具有个性化奖励的可证明高效的交互式根植学习

May, 2024

具有个性化奖励的可证明高效的交互式根植学习

Provably Efficient Interactive-Grounded Learning with Personalized Reward

Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro

TL;DR通过与环境进行交互并观察依赖奖励的反馈，互动地接触学习（IGL）是一个强大的框架，该框架中学习者通过最大化无法观察的奖励来改进。我们研究了个性化奖励问题，并提出了第一个在实现性条件下能够证明高效的算法。通过分析，我们发现先前工作的阶跃函数估计器可能由于样本有限效应而无法控制地偏离。我们的解决方案是一种新颖的利普希茨奖励估计器，它低估了真实奖励并具有良好的泛化性能。基于该估计器，我们提出了两种算法，一种基于探索 - 利用，另一种基于反间隙加权。我们将 IGL 应用于从图像反馈和文本反馈中进行学习，这是在实践中出现的无奖励设置。实验结果突显了使用我们的利普希茨奖励估计器的重要性和算法的整体有效性。

Abstract

interactive-grounded learning (IGL) [Xie et al., 2021] is a powerful framework in which a learner aims at maximizing unobservable rewards through interacting with an environment and observing reward-dependent fee

interactive-grounded learning rewards context-dependent feedback sublinear regret lipschitz reward estimator

发现论文，激发创造

基于交互学习的个性化奖励学习 (IGL）

该研究提出了一种基于 Interaction Grounded Learning（IGL）范式的方法，用于处理不同用户通信方式的多样性，从而实现对不同用户的个性化奖励函数学习，以直接优化潜在的用户满意度，实验结果表明该方法的成功应用。

Nov, 2022

基于交互的学习与行动包容性反馈

本文探讨了交互接地学习（IGL) 中的问题，其中学习者的目标是在没有明确奖励的情况下与环境进行最佳交互，提出了一种算法和分析来解决反馈向量包含动作的情况限制 IGL 成功的问题，并通过基于监督数据集的大规模实验证明了这种新方法的有效性。

Jun, 2022

一种基于信息论的互动导向学习方法

提出了一种信息理论方法，Variational Information-based IGL（VI-IGL），用于增强学习问题，在 Interaction-Grounded Learning（IGL）条件下改进了 RL 算法，并在多个强化学习设置中取得了性能上的改进。

Jan, 2024

互动引导学习

提出一种交互基础学习的方法，用于解决假肢臂适应用户控制信号的问题，该方法可以通过学习如何评估反馈向量以发现潜在的奖励信号，并制定成功的策略，同时具备理论保证和实证评估。

Jun, 2021

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

复杂长时程机器人操作任务的内在语言引导探索

在复杂稀疏环境中，提出使用大型语言模型（LLMs）的内在引导探索（IGE-LLMs）框架，以解决强化学习中的长期操纵任务的问题。结果显示，IGE-LLMs 在探索和长期操纵任务中表现出显著较高的性能，同时具有模块化性和对不同内在缩放参数的鲁棒性。

Sep, 2023

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

具近见式指导反馈的可证明交互式学习

探讨了以回顾性标签为指导的交互学习，通过理论分析证明了任何算法的后悔度必须与代理的响应空间的规模成比例，并基于低秩矩阵的特殊设定引入了名为 LORIL 的算法，并证明了它的后悔度与回合数的平方根成比例，而不以代理的响应空间的大小为依据，最后通过两个领域的实验表明了 LORIL 优于基准算法。

Apr, 2024

通过生成模型的内在奖励驱动的模仿学习

通过引入一种新的奖励学习模块，可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码，提高模块在环境中的动力学建模能力，并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明，我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法，即使只有一次演示，性能也是演示的 5 倍。

Jun, 2020

PAGAR：带有主角 - 反角引导的对抗性奖励的模仿学习

本文提出 PAGAR，这是一种用于设计策略训练奖励的半监督学习范例，该算法采用迭代对抗搜索奖励函数，以最大化主角策略和反派策略之间的性能差距，并保证训练出的策略在底层任务中成功执行。实验结果表明，与现有的基于 IL / IRL 的算法相比，PAGAR 在标准设置中实现了更高的训练效率，并能够在转移环境中进行零样本学习。

Jun, 2023