- ICLRHieros: 分级想象结构化状态空间序列世界模型
深度强化学习中的一个主要挑战是样本效率问题,通过使用一种层次化策略与世界模型,可以实现对环境的直接交互训练的辅助,以提高想象效率、准确性和探索能力,并在 Atari 100k 基准测试中表现出卓越的性能。
- 和谐世界模型:提高基于模型的强化学习的样本效率
通过进行实证调查,这篇论文深入研究了世界模型中观察建模和奖励建模的作用,并发现在调和观察和奖励建模之间的干扰方面存在更高效的模型驱动强化学习的潜力。借助这些发现,提出了一种称为 Harmony World Models(HarmonyWM) - 无监督序列模型中的世界模型中的线性表现
序列模型对其决策过程是如何表示的?我们的研究表明,将模型的内部状态线性化表示为 “我的颜色” 与 “对手的颜色” 可以通过简单的向量运算来控制模型的行为,从而实现对内部表示的精确理解。线性表示为解决序列模型的解释性问题提供了重要进展,并通过 - ICCVDREAMWALKER:持续视觉语言导航的心智规划
通过构建一个基于世界模型的 VLN-CE 代理程序,DREAMWALKER 能够在内部抽象世界中模拟和评估可能的计划,实现智能导航和透明的决策过程。
- 思行者:学习规划与行动
我们提出了 Thinker 算法,这是一种新颖的方法,使强化学习代理能够与学习的世界模型自主交互并利用它。Thinker 算法通过在环境周围包装一个世界模型,并引入专门用于与世界模型交互的新动作,使代理能够通过向世界模型提议替代方案来进行规 - Safe DreamerV3:基于世界模型的安全强化学习
本文介绍了一种将拉格朗日方法和规划方法融合到世界模型中的算法 Safe DreamerV3,这是首个在 Safety-Gymnasium benchmark 中能够在低维和仅依靠视觉的任务中实现近乎零成本的 SafeRL 算法。
- 神经世界模型与计算机视觉
该研究提出了一种基于计算机视觉概念,使用深度神经网络从摄像头观测和专业演示数据中训练世界模型和政策的通用框架,该模型可以预测鸟瞰图空间中动态汽车的未来轨迹,并在城市驾驶环境中联合预测静态场景、动态场景和特定行为。
- 可辨别因子分解的世界模型学习
本文提出了 IFactor 框架,它由四类潜在状态变量建模,以捕捉强化学习系统中各种信息的不同方面,并在合成环境和深度强化学习环境中展示了其性能优于基线的实验结果。
- Vid2Act:激活离线视觉强化学习视频
Vid2Act 是一种基于模型的强化学习方法,其使用世界模型作为行为学习的模拟器并使用它们来衡量动力学表示转移和策略转移的域相关性,以将有价值的动作条件动态和潜在有用的行动演示从离线到在线环境进行转移。
- 对话式语言模型的推理即世界模型的规划
本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP,利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中,RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。
- 协同学习经验游戏和世界模型
探索协同学习游戏决策制定中的世界动力学和策略交互两方面,实现了一种新算法 Dyna-PSRO,在部分可观察的一般和博弈中计算出的遗憾解决方案比基线算法 PSRO 要低,所需收集的玩家 - 游戏交互数据也少得多。
- 感知、想象、行动:多模态感知改进基于模型的自主竞赛强化学习
该研究提出了一种自监督传感器融合技术,将自身视觉 LiDAR 和 RGB 相机观测数据相结合,应用于模型驱动的强化学习领域,通过提高状态估计来改善其准确性,并在零样本场景下验证了其有效性。
- ICLR基于 Transformer 的世界模型需要 100k 次交互
使用变换器对真实世界情节进行自回归处理,生成有意义、新的经历,进而训练超越之前强化学习算法的策略。
- 学习预测长期轨迹的固有不确定性和认知不确定性
使用深度生成的世界模型来预测自主代理系统的完整轨迹,从而解决世界系统中存在的各种不确定性问题。
- 基于模型的强化学习中的内在动机:简要综述
通过对智能体控制完成的问题广泛应用增强学习方法进行研究。 基于发展心理学中的内在动机的概念,提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类,分别为互补的内在奖励,探索策略和内在动机的目标。 具有世界模型和内在动机的代理的架构被 - AAAI强化学习中解耦特征表示隐藏参数的学习与理解
本文提出了一种无监督方法,通过改进 RNN world model 的训练算法和利用 metric learning 映射 RNN memory 到 feature space 中,将 RL 轨迹从隐藏参数对系统行为的影响中解开,从而可对系 - 在少数无奖励部署中学习通用世界模型
在深度强化学习中,为了建立通用型智能体,需要实现两个关键的条件:探索是任务无关的,探索策略能够在无需重新训练的情况下收集大量数据。本文提出了一种新的强化学习范式 —— 无奖励部署效率设置,并在此基础上介绍了 CASCADE 算法,通过一种信 - 具有不变因果特征的世界模型对比无监督学习
运用不变性原则的世界模型,通过对比非相关部分或观察风格的差异性,使用对比无监督学习,学习不变因果特点,提出了一个新的改进型辅助任务方法,取得了 iGibson 数据集上优秀的表现
- 利用有选择性注意力建模非加强学习的偏好
提出了一种人工智能代理学习无强化偏好的机制 extsc {Nore},通过利用代理的世界模型来收集不同的经验,然后通过选择性注意和门控机制更新代理的偏好,证明了其在无外部信号和波动性下可以诱导探索性偏好的有效性。
- 基于像素的深度分层规划
通过在一个学习好的世界模型的潜在空间 planning,我们引入了一种名叫 Director 的实用方法,直接从像素学习分层行为,无需手动指定目标空间或子任务,并在具有稀疏奖励的任务中表现超越了探索方法。