BriefGPT.xyz
大模型
Ask
alpha
关键词
partially-observable environments
搜索结果 - 3
执行 - 衡量策略:在活跃衡量中的部分可观测环境中强化学习
本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS(ACNO-MPDs),提出了基于 “先控制再观察” 启发式的强化学习算法,并在部分可观察环境中展示了其卓越性能。
PDF
a year ago
ICML
用于规划的矢量量化模型
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL
→
PDF
3 years ago
ICML
TarMAC:有目标的多智能体通信
本文提出了一种针对多智能体强化学习的有针对性通信架构,智能体在部分可见环境中执行协作任务时学习如何发送信息和将其发送给谁。该方法在没有通信监督的情况下,仅通过下游任务特定的奖励来学习定向行为。此外,我们通过多轮通信方法增强智能体之间的协调,
→
PDF
6 years ago
Prev
Next