BriefGPT.xyz
Ask
alpha
关键词
batch off-policy settings
搜索结果 - 1
POPCORN:部分观察预测约束强化学习
本文提出了一种新的优化目标,以批处理离线策略为特点,即使在某些观测对于规划无关紧要时,该方法也能产生高性能策略和高质量的生成模型,并将其应用于合成样例和一个具有挑战性的医疗决策问题。
PDF
4 years ago
Prev
Next