Jul, 2024

长模型推演不是坏 Q-值估计的理由

TL;DR本文研究使用模型基于离线强化学习和长模型回滚。研究表明,长回滚并不会导致指数增长的错误,而且实际上可以产生比无模型方法更好的Q值估计,这些发现有可能增强强化学习技术。