Feb, 2024

ACTER: RL 策略解释和诊断的多样和可行的反事实序列

TL;DR提供可操作建议以避免强化学习中的失败,该算法以最小变化和高确定性生成能够预防失败的相反事实序列,并在多样的情况下生成多种相反事实序列。