Jun, 2023

具有不完全可观测性的高效强化学习:学会通过延迟和缺失状态观测来行动

TL;DR本文研究在控制系统中如何高效地进行强化学习,以应对代理无法实时观察系统最新状态的延迟和缺失观测,通过建立新的近似损失边界方法,可以在考虑状态 - 动作大小的情况下实现学习的高效性,与完全可观测性下的最优方案进行比较。