BriefGPT.xyz
Ask
alpha
关键词
hallucinated replay
搜索结果 - 1
AAAI
基于模型的强化学习的自我纠正模型
本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果,提出了一种新的误差界,利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。
PDF
8 years ago
Prev
Next