out-of-distribution actions | BriefGPT

关键词out-of-distribution actions

搜索结果 - 5

策略性保守型 Q 学习
提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。
PDFa month ago
离线强化学习的网格映射伪计数约束
提出了一种用于连续领域的新型基于计数的方法（Grid-Mapping Pseudo-Count method，GPC），通过伪计数约束状态和行动空间的 Q 值，以适当地惩罚 Q 值并降低计算成本，实验结果表明 GPC-SAC 算法在性能和计
PDF3 months ago
AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作
AlberDICE 是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。
PDF8 months ago
离线强化学习中的温和保守型 Q 学习
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪 Q 值来积极地训练 OOD 动作，在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得
PDF2 years ago
PLAS：离线强化学习的潜在动作空间
该论文提出了一种使用潜在动作空间学习策略的离线强化学习方法，能够有效克服现有算法存在的内插误差，具有优异的性能表现。
PDF4 years ago