Jan, 2022

朝向因果感知增强学习:基于状态的动作细化时间差分

TL;DR此研究提出了基于状态修正行动的方法以解决动作空间冗余和促进强化学习中的因果关系发现,并探讨了两种解决方案:TD-SWAR 和 Dyn-SWAR,用于改善动作冗余任务中的学习效率。