Mar, 2023

使用基于记忆的学习来解决具有状态-动作约束的任务

TL;DR使用基于记忆的学习方法,利用任务的符号特性和动作的时间顺序,快速获取和传输高级信息,以解决不连续性约束的任务,这种代理方式比基于模型和无模型深度强化学习方法解决这些任务更快。