actor-critic method | BriefGPT

关键词actor-critic method

搜索结果 - 9

连续控制增强学习：分布分布式 DrQ 算法
Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该
PDF3 months ago
使用深度强化学习计算稀有事件的转变路径
在计算物理、化学和生物学领域中，了解复杂系统中亚稳态之间的转变事件是重要的课题。本文将路径查找任务作为特定路径空间上的成本最小化问题进行了阐述，并利用深度确定性策略梯度算法（DDPG）中的演员 - 评论者方法来解决该问题。所提出的方法利用增
PDF3 months ago
强结构可控性的最小化控制输入：基于图神经网络的强化学习
通过图论条件的强结构可控性，我们将图着色过程视为马尔可夫决策过程，并利用表示图颜色信息的有向图神经网络进行优化，验证了我们的方法在真实数据和不同复杂网络模型的社会影响网络中的有效性。我们发现输入节点的数量由网络的平均度确定，并且输入节点倾向
PDF4 months ago
SACHA: 基于启发式注意力的软演员评论家方法用于部分可观测的多智能体路径规划
我们提出了一种多智能体演员 - 评论员方法（Soft Actor-Critic with Heuristic-Based Attention，SACHA），通过在演员和评论员中采用新颖的基于启发式的注意机制，鼓励智能体之间的合作，从而解决了
PDFa year ago
IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法
使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型，提出了一个新的 actor-critic 模型，称为 Implicit Diffusion
PDFa year ago
基于超图神经网络的多智能体系统高效策略生成
本文介绍了一种基于邻域的多智能体强化学习算法，并提出了两种基于超图结构的变体方法，其中利用超图卷积网络实现了信息提取和表示学习，具有实现有效合作的显著优势。
PDF2 years ago
演员 - 评论家算法对高熵最优策略存在隐式偏差
通过交互式学习使用线性 softmax 策略和线性 MDP 更新的最简单的 actor-critic 方法，通过高熵优化实现了无需正则化或探索即可找到最优政策，从而消除了 MDP 中均匀混合假设的限制。
PDF3 years ago
在观测设置中去卷积强化学习
该论文提出了一种通用的强化学习算法，针对观测数据中未观察到的因素（混杂因素）影响观察到的行为和奖励，学习从历史数据中得出好的策略，使用修改的 OpenAI Gym 环境和 MNIST 数据集开发了新的基准测试，并且证明了该算法在混淆的环境中
PDF6 years ago
分层强化学习用于具有子任务依赖性的零样本普适性
提出了一种新的强化学习问题，该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化，我们提出了一种神经子任务图求解器，通过使用递归神经网络嵌入来编码子任务图，并用基于梯度的策略，图奖励传播来预训练它，进一步通过演员 - 评论家方法微调
PDF6 years ago