Jun, 2023

基于模型的强化学习中的信息 POMDP:利用额外信息

TL;DR本文使用 POMDP 进行交互学习,并引入了信息学习的范例,提出了学习充分统计来实现最优控制的目标,并通过新提出的环境模型进行学习,最后在 Dreamer 算法中证明了这种方法的有效性和简单性,建议在模型为基础的 RL 的学习中系统考虑未来的附加信息