Apr, 2024

TrajDeleter:离线强化学习代理中的轨迹遗忘功能

TL;DR本研究提出了Trajdeleter和Trajauditor,分别为离线强化学习代理实现轨迹遗忘和评估提供了实用的方法。通过 extensive experiments,结果表明Trajdeleter仅需约1.5%所需时间进行重新训练,有效地删除了目标轨迹的94.8%,且在实际环境交互后仍表现良好。