off-policy data | BriefGPT - AI 论文速递

关键词off-policy data

搜索结果 - 9

目标网络和过参数化稳定函数逼近下的离线策略引导
通过目标网络和超参数化线性函数逼近的组合，我们证明在某些情况下，即使使用离线数据，也可以建立起一个较弱的收敛条件来估计引导值。我们的条件自然满足对整个状态 - 动作空间进行期望更新或使用一批完整轨迹从情景马尔科夫决策过程中进行学习。值得注意
PDFa month ago
高速公路增强学习
学习多步骤离线数据集合的核心问题是强化学习中一项重要的问题。本文提出了一种新的、无 IS 影响的、多步骤离线方法，通过引入一个名为高速公路门的机制，使得算法能够有效地利用未来较远时刻的信息并收敛到最优值函数。在具有延迟奖励的任务中，我们的新
PDFa month ago
ICLR技能还是运气？通过优势函数进行回报分解
利用离线数据进行学习是实现高效强化学习的关键，本文以优势函数作为行动对应回报的因果效应为基础，将轨迹的回报分解为受智能体行动（技能）和超出智能体控制范围的部分（运气）所影响的部分，并利用此分解将直接优势估计（DAE）自然地扩展到离线策略（离
PDF5 months ago
蒸馏策略优化
本文提出了一种基于演员 - 评论家学习框架的算法，通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习，并且采用方差约减机制和学习基线以稳定策略梯度的方法，从根本上改进了样本效率和可插值性。
PDFa year ago
通过无关行为的发散正则化来实现稳定的政策优化
在这篇论文中，我们提出了一种新的算法，它通过一种接近性项稳定了策略改进，并限制由连续策略引发的折扣状态行动访问分布彼此接近，并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明，我们提出的方法可以对稳定性产生有
PDF4 years ago
统计高效的离线策略梯度
本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法，在不需要参数假设的情况下实现了可行均方误差的渐进下界，并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后，我们证明了当我们朝着新的策略梯度方向迈出步伐时
PDF4 years ago
优势加权回归：简单且可扩展的离线策略强化学习
该论文旨在开发一种简单且可扩展的增强学习算法，使用标准的监督学习方法作为子程序。提出的 AWR 方法只需几行代码即可实现，能够适应连续和离散行动，其性能与许多最先进的 RL 算法相当，无需其他环境交互即可从纯静态数据集中获取更有效的策略。
PDF5 years ago
对话中隐含人类偏好的大规模脱靶批次深度强化学习
提出了一种新型的基于批处理的深度强化学习算法，可以在没有在线探索的情况下有效地从人类交互数据的固定批量中进行离线学习，并在开放域对话生成等领域取得了显著的改进。
PDF5 years ago
ICML基于轨迹的离线深度强化学习
本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上
PDF5 years ago