May, 2022

嵌入式控制部分观测系统:带有可证明采样效率的表示学习

TL;DR提出了一种名为Embed to Control (ETC)的强化学习算法,通过学习观察和状态历史的最小但足够的表示来解决部分观测Markov决策过程(POMDP)中的样本复杂性问题,实现了表示学习和策略优化的桥梁,具有高效的样本复杂度,适用于具有低秩结构的POMDP问题。