BriefGPT.xyz
Ask
alpha
关键词
factored action spaces
搜索结果 - 2
ICML
利用分解的动作空间进行脱机策略评估
通过利用分解行动空间的技术,我们提出了一种新的家族式重要性采样估计器,以减少现有 OPE 估计器的偏差和方差问题,同时保持零偏差的特性。
PDF
a year ago
利用分解的行动空间实现医疗保健中高效的离线强化学习
本文研究了如何在强化学习的组合行为空间中通过线性 Q 函数分解来更好地处理少见子行动组合的情况,并对该方法进行了理论分析和实验评估,证明了它可以提高数据效率和策略优化的性能。
PDF
a year ago
Prev
Next