Jun, 2023

非可识别隐藏混淆条件下的德尔菲离线强化学习

TL;DR本文提出了解决 offline reinforcement learning 中的隐蔽性混杂效应问题的方法,借助与观察相容的世界模型的不同处理,提出了 delphic 不确定性问题,试图减少混杂偏差和提高 offline RL 算法的实际效果。