IJCAIApr, 2023

CROP: 基于紧凑重塑观察处理的分布偏移鲁棒性强化学习

TL;DR本文提出 Compact Reshaped Observation Processing (CROP) 方法,通过减少用于策略优化的状态信息来提高数据效率和泛化能力,为完全可观测的观察和行动空间制定了三个 CROP,并在分布式安全格网世界中进行了实证展示。同时,与两个不同大小的程序生成的迷宫进行了基准比较,表明了 CROP 的改进。