轨迹反馈的强化学习

AAAIAug, 2020

Reinforcement Learning with Trajectory Feedback

Yonathan Efroni, Nadav Merlis, Shie Mannor

TL;DR本文提出了一种基于轨迹反馈的强化学习算法，通过加强措施而无需为每个状态 - 动作对提供奖励，旨在处理现实世界的环境下反馈不及时的问题，同时，我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。

Abstract

The standard feedback model of reinforcement learning requires revealing the reward of every visited state-action pair. However, in practice, it is often the case that such frequent feedback is not available. In this work, we take a first step towards relaxing this assumption and requi

reinforcement learning trajectory feedback least-squares estimation transition model regret

发现论文，激发创造

强化学习中的一次性回馈理论

我们研究了一种强化学习的理论，学习者只在每次学习完成后收到一次二元反馈。我们提供了一种具有统计和计算效率的算法，可以在这种更具挑战性的情况下实现学习。该算法可以在未知参数模型生成的轨迹标签上运行，并达到亚线性遗憾。

May, 2021

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在 MLE 的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023

具有前瞻信息的强化学习

通过利用先验信息，我们设计了一种能够有效地学习和处理未知环境中的强化学习问题的算法，大大提高了收集奖励的效率。

Jun, 2024

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

通过随机化提高基于偏好反馈的强化学习的效率

这项研究介绍了一种利用人类反馈的强化学习算法，在线性 MDP 模型和非线性函数逼近模型下，通过随机化算法设计实现了高样本效率和多项式计算复杂度，并通过一种新颖的随机主动学习过程最小化了查询复杂度，同时在后者中取得了近乎最优的折衷结果。

Oct, 2023

轨迹空间平滑的学习引导奖励

该论文介绍了一种使用轨迹空间平滑来学习指导奖励的算法，并阐明了该算法在解决强化学习中长期时序信用分配问题上的优越性。

Oct, 2020

基于观测的内部模型用于奖励塑造

本研究提出一种新的强化学习方法，即基于内部模型的奖励估计方法，通过预测给定专家状态分布的预测模型来估计奖励，进而直接从专家操作的视频中成功训练出良好的策略。

Jun, 2018

路程即是奖励：无监督学习有影响轨迹

该研究提出了一个全新的方法以处理具有大行动空间的复杂环境中的无监督探究和表征的问题，并在考虑到整个轨迹的情况下，通过最大化其对环境未来状态的影响来形式化无监督的探索目标。

May, 2019

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

回溯模型：高效强化学习追溯痕迹

通过回溯模型和回溯的方式，可以在强化学习中发现更多高奖励状态，从而提高状态采样的效率。

Apr, 2018