疑虑时，慢思考：具有潜在想象力的迭代推理

Feb, 2024

疑虑时，慢思考：具有潜在想象力的迭代推理

When in Doubt, Think Slow: Iterative Reasoning with Latent Imagination

Martin Benfeghoul, Umais Zahid, Qinghai Guo, Zafeirios Fountas

TL;DR我们在这项工作中提出了一种新颖的、无需训练的方法，通过在决策时应用迭代推理，基于未来状态表示的连贯性来优化被推理的智能体状态，从而提高了模型驱动的强化学习智能体的性能。

Abstract

In an unfamiliar setting, a model-based reinforcement learning agent can be limited by the accuracy of its world model. In this work, we present a novel, training-free approach to improving the performance of suc

model-based reinforcement learning world model iterative inference reconstruction accuracy task performance

发现论文，激发创造

融合前瞻性和想象力：基于模型的协作多智能体强化学习

本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Apr, 2022

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

潜在状态估计有助于用户界面代理进行推理

研究了代理在现实环境中的一个常见问题，即环境对其行为的响应可能是不确定的，通过噪声观察到。通过适当的提示 LLMs 以零 - shot 方式可以被形式化地理解为在文本空间中形成对潜在状态的点估计。在自主 UI 代理的背景下，我们展示了以这种方式使用 LLMs 在推断潜在状态各方面（如已执行（与已命令）的操作和任务进展）上的准确性超过 76％。使用公共和内部基准测试以及三种推理方法（零 - shot，CoT-SC 和 ReAct），我们表明，明确估计和推理潜在状态的 LLM 驱动代理比那些不这样做的代理能够成功完成多达 1.6 倍的任务。

May, 2024

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Mar, 2023

离线预训练加速探索和表示学习

从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型，能够显着提高 NetHack 基准测试的样本效率，同时突出了我们实验设置的各种组成部分和关键洞察。

Mar, 2023

基于模型的强化学习通过潜空间配置

该研究使用学习的潜在状态空间模型，结合目测模型强化学习方法，提出了一种优化潜在状态轨迹的 LatCo 方法，来解决长时程、奖励稀疏的任务。通过序列规划，相比于之前使用的射击方法，该方法在历经时间过程中的效果更好。

Jun, 2021

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

从零开始学习基于模型的规划

介绍了一种基于想象的规划器，可以学习构建、评估和执行计划，并可通过学习策略等手段进行多方案模拟，联合优化外部收益和计算成本等目标。

Jul, 2017

多智能体强化学习的概率递归推理

本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架，该框架可以用于建模智体对手的行为，提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明，关于智体对手信念的推理，是智体强化学习中一个重要的方向。

Jan, 2019