Dec, 2023

主动采样能减少离线强化学习中的因果混淆吗?

TL;DR通过选择适当的样本点从演示数据集中进行有选择性的采样,我们研究了离线增强学习中的因果混淆现象,并评估了主动采样技术在减少因果混淆方面的能力。我们提供了实证证据,证明随着训练的进展,均匀采样和主动采样技术能够持续减少因果混淆,并且主动采样要比均匀采样更高效地实现这一目标。