BriefGPT.xyz
Ask
alpha
关键词
aql
搜索结果 - 2
IJCAI
使用残差生成建模提升离线强化学习
本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习,并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明,AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外,该离线 RL 方法在多人在线战场
→
PDF
3 years ago
通过分摊近似最大化实现巨大动作空间中的 Q 学习
本文提出一种名为 Amortized Q-learning (AQL) 的方法,利用类似于摊销推理的技术,通过从学习到的建议分布中采样一小部分可能的动作,取代所有动作的昂贵最大化,从而处理离散、连续或混合动作空间,同时保持 Q-learni
→
PDF
4 years ago
Prev
Next