BriefGPT.xyz
Ask
alpha
关键词
discrete action spaces
搜索结果 - 5
研究选择对于深度强化学习在航天控制中的影响
该论文研究了使用离散动作空间,以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响,针对检查任务和停靠任务的需求。结果显示对于检查任务,有限数量的离散选择导致最佳性能,而对于停靠任务,连续控制导致最佳性能。
PDF
2 months ago
DCT: 大离散行动空间的强化学习行动嵌入的双通道训练
本文提出了一种新颖的框架来 efficiently learn action embeddings,并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。
PDF
a year ago
重温使用 Gumbel-Softmax 的 MADDPG 算法
本文探讨了在离散动作空间的场景下,使用多种代替 Gumbel-Softmax 估计器的方法来扩展 MADDPG 算法,并对各种性能指标进行了测量和分析,结果表明,在几项任务中,其中一种提出的估计方法比原始的 Gumbel-Softmax 在
→
PDF
a year ago
AI 中的构造正确执行时强制执行 - 一项调查
本文探讨了针对 AI 安全方面的应用开发运行时执行方式,介绍了监管工具的选型、适用的离散 / 连续动作空间等相关技术细节,旨在提高我们对不同执行应用的理解及未来应用方向。
PDF
2 years ago
基于模型的离散和连续行动规划
本文介绍了一种使用前向模型的行动计划方法,在离散动作空间中通过反向传播实现规划,使用参数化的动作向量和输入噪声,同时使用策略蒸馏方法,性能优于模型自由 RL 和离散计划方法,可以应用于离散和连续动作空间的模型控制任务。
PDF
7 years ago
Prev
Next