Jan, 2020

POPCORN:部分观察预测约束强化学习

TL;DR本文提出了一种新的优化目标,以批处理离线策略为特点,即使在某些观测对于规划无关紧要时,该方法也能产生高性能策略和高质量的生成模型,并将其应用于合成样例和一个具有挑战性的医疗决策问题。