actor-critic methods | BriefGPT

关键词actor-critic methods

搜索结果 - 24

生物和机器人系统无模型强化学习的深入研究：理论与实践
动物和机器人存在于物理世界中，并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略（策略）。然而，这些方法的效用超出了特定任务的限制；它们为理解动物感觉运动系
PDF2 months ago
AFU：用于连续控制的离策略强化学习中的无演员评论家更新
该研究论文介绍了一种名为 AFU 的离策略深度强化学习算法，它通过使用回归和条件梯度缩放的解决方案，以全新的方式解决了连续动作空间中 Q 学习中具有挑战性的 “最大 Q 问题”。AFU 具有一个演员，但它的评论家更新完全独立于其演员，因此演
PDF2 months ago
迭代 Q 网络：超越一步 Bellman 算子
值基于强化学习的研究论文，介绍了一种新方法 (iterated Q-Networks)，通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近，理论上可行，并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏
PDF4 months ago
深度双 Q 学习在演员评论方法中的估计偏差利用
本文介绍了创新的强化学习方法，重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差，使用深度双 Q 学习。我们提出了两种新算法：期望延迟深度确定性策略梯度（ExpD3）和偏差利用 - 双延迟深度确定性策略梯度（BE-TD3）。Ex
PDF5 months ago
解耦的 Actor-Critic
我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和
PDF8 months ago
具有本地超梯度估计的联邦多序列随机逼近
通过开发 FedMSA，我们着手开展了 Federated Stochastic Approximation With Multiple Coupled Sequences (MSA) 的算法问题，该算法问题被广泛应用于机器学习，并且在 B
PDFa year ago
探索实时循环学习的优缺点
本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用，结果表明，在 DMLab 记忆任务中，我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2
PDFa year ago
ICLR成长式批次强化学习中的教师向学生知识转移
本文探讨在离线和有人专家参与的环境下，如何利用专家提供的数据及信息来改善演员 - 评论家方法的样本需求复杂性和覆盖率，并在 DeepMind Control Suite 上验证了这一方法。
PDFa year ago
ICLR行为近端策略优化
本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在
PDFa year ago
CUP：批评指导的策略复用
提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题，通过使用评论家来评估并选择源策略，避免了训练额外的组件，该算法在有效的策略搜索方面表现出良好性能，胜过其它基准算法。
PDF2 years ago
多智能体强化学习的异步演员 - 评论家算法
该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。
PDF2 years ago
ICLR当数据几何遇上深度函数：泛化离线强化学习
研究了基于深度 Q 函数的强化学习中的策略学习问题，提出了一种新的方法 Distance-sensitive Offline RL with better GEneralization（DOGE），该方法结合了数据几何和深度函数逼近器，使用
PDF2 years ago
使用双仿度量进行近似策略迭代
本文提出 Sinkhorn 距离可以定义 Bisimulation metrics，通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor-
PDF2 years ago
ICMLActor-Critic 方法在离线强化学习中的可证实益处
提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。
PDF3 years ago
ICML演员 - 评论家和策略梯度之间的差距表征
本文提出了一种旨在改进强化学习中 Actor-critic 方法的算法 ——Residual Actor-Critic 和 Stackelberg Actor-Critic，可以提高现有方法的样本效率和最终性能，并通过对 Actor 和 C
PDF3 years ago
相位策略梯度
Phasic Policy Gradient (PPG) 是一种强化学习框架，通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员 - 评论家方法，从而在保持各自优点的同时提高样本利用效率。
PDF4 years ago
乐观演员 - 评论家算法实现更好的探索
本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。
PDF5 years ago
ICML概率函数下降：关于 GAN、变分推断和强化学习的统一视角
该论文提供了一个新的关于机器学习问题的统一观点，将其框架化为在概率量度空间上定义的泛函最小化问题。通过这个框架，我们可以将生成对抗网络、变分推断以及强化学习中的演员 - 评论家方法等看作是同一问题。我们介绍了泛函梯度下降（PFD）算法，并展
PDF5 years ago
共同体多智能体强化学习的参数共享深度确定性策略梯度
本文探讨基于 actor-critic 方法的合作多智能体问题，在局部观察设置下，在神经网络的基础上提出了参数共享确定性策略梯度方法，包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体，该方法在学习速度、内存效率和智能体数量方
PDF7 years ago
多智能体演员 - 评论家在混合协作竞争环境下的应用
本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发
PDF7 years ago