Apr, 2024

TrajDeleter:离线强化学习代理中的轨迹遗忘功能

TL;DR本研究提出了 Trajdeleter 和 Trajauditor,分别为离线强化学习代理实现轨迹遗忘和评估提供了实用的方法。通过 extensive experiments,结果表明 Trajdeleter 仅需约 1.5% 所需时间进行重新训练,有效地删除了目标轨迹的 94.8%,且在实际环境交互后仍表现良好。