Feb, 2024

疑虑时,慢思考:具有潜在想象力的迭代推理

TL;DR我们在这项工作中提出了一种新颖的、无需训练的方法,通过在决策时应用迭代推理,基于未来状态表示的连贯性来优化被推理的智能体状态,从而提高了模型驱动的强化学习智能体的性能。