batch off-policy settings | BriefGPT

关键词batch off-policy settings

搜索结果 - 1

POPCORN：部分观察预测约束强化学习
本文提出了一种新的优化目标，以批处理离线策略为特点，即使在某些观测对于规划无关紧要时，该方法也能产生高性能策略和高质量的生成模型，并将其应用于合成样例和一个具有挑战性的医疗决策问题。
PDF4 years ago