off-policy algorithm | BriefGPT

关键词off-policy algorithm

搜索结果 - 7

偏好作为奖励，通过重要性采样进行最大偏好优化
这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳
PDF6 months ago
对比差异预测编码
本文介绍了一种自适应时间差异版对比性预测编码，通过拼接不同时间序列数据的片段来减少学习未来事件预测所需的数据量，并将该方法应用于推导目标条件强化学习的离线策略算法。实验表明，与先前的强化学习方法相比，我们的方法在成功率方面取得了 2 倍的中
PDF8 months ago
解耦的 Actor-Critic
我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和
PDF8 months ago
DisCo RL: 面向通用策略的分布条件强化学习
本文提出了一种基于目标分布的通用任务表征方法，通过该方法可以实现针对不同任务的灵活重用技能，并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高
PDF3 years ago
通过变分推断实现基于结果的强化学习
通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。
PDF3 years ago
隐式分布强化学习
研究提出了一种隐式分布型 actor-critic (IDAC) 算法，它包括一个基于两个深度生成器网络 (DGNs) 的分布型评论家和一个由灵活的策略分布支持的半隐式演员 (SIA)，可用于提高策略梯度强化学习算法的样本效率。
PDF4 years ago
最大后验策略优化
介绍了一种基于最大后验策略优化的强化学习算法，并开发出两种离线策略算法，证明了它们在深度强化学习方面与现有方法的竞争力，并在连续控制方面提高了样本效率，避免了过早收敛和对超参数设置的鲁棒性。
PDF6 years ago