Jul, 2023

看到并不意味着信仰:针对虚假相关性的强化学习

TL;DR本研究考虑了强化学习中因未观测潜在因素引起的虚假相关性所导致的稳健性问题,提出了集成马尔可夫决策过程和状态混淆技术的算法 RSC-MDPs,并在真实的自动驾驶和操作环境中验证了其卓越性能。