actor-critic architecture | BriefGPT

关键词actor-critic architecture

搜索结果 - 10

ClothPPO：一个增强机器人布料操纵的近端策略优化框架，使用与观测对齐的动作空间
本文介绍了基于视觉的机器人布料展开的研究，引入了一个基于策略梯度算法和演员 - 评论家架构的框架 ClothPPO，通过优化和更新策略，提高了软体操作任务下布料展开的表现。实验结果表明，我们的方法可以进一步改善其他最先进方法的展开性能。
PDF2 months ago
CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理
本文介绍了一种基于连续动作空间的连续分布式无模型强化学习算法，通过引入多个融合的评论家和 Kalman 融合机制来简化实现分布式强化学习，并验证了其在执行复杂的连续控制任务中具有易于训练和高样本效率的解决方案。
PDF2 months ago
序列无关的多物体导航
利用深度强化学习模型，基于无序的 actor-critic 框架和适当的奖励规范，提出了一个适用于多目标导航的机器人的算法，通过实验验证了这个方法在实践应用中胜过了预设顺序的方法和当下最先进的单个目标导航的方法。
PDFa year ago
通过学习识别少而关键的状态进行一般政策评估和改进
在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的
PDF2 years ago
零阶演员 - 评论家
提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。
PDF2 years ago
IJCAI利用剧集记忆解决连续控制问题
本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由
PDF3 years ago
IJCAI使用代理经验记忆的联邦加强蒸馏
提出了一种隐私保护的分布式强化学习框架 FRD，通过交换代理经验记忆保留真实经验的隐私，基于优势 actor-critic 强化学习架构评估了 FRD 的有效性，并研究了代理内存结构和不同内存交换规则对 FRD 性能的影响。
PDF5 years ago
基于离线训练和函数近似的收敛演员 - 评论家算法
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所
PDF6 years ago
CVPR面向美学的图像剪裁增强学习（A2-RL）
本研究提出了一个弱监督美学感知强化学习 (A2-RL) 框架，将美学图像裁剪作为一个序列决策过程，并开发了一种美学感知奖励函数，使用 actor-critic 结构以端到端方式训练智能体，实验结果表明，我们的方法在使用较少的候选窗口和时间的
PDF7 years ago
使用双阶段训练的策略网络用于对话系统
本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行
PDF8 years ago