增强学习机器人中的多时间尺度推断

Dec, 2011

增强学习机器人中的多时间尺度推断

Multi-timescale Nexting in a Reinforcement Learning Robot

Joseph Modayil, Adam White, Richard S. Sutton

TL;DR本研究通过基于时间差分法和线性函数逼近的 TD (lambda) 算法，在机器人中实现了对当下及未来 0.1 至 8 秒内全部感知信息的预测及实时学习，最终获得了较高的准确率，证明了该方法具有实用价值。

Abstract

The term "nexting" has been used by psychologists to refer to the propensity of people and many other animals to continually predict what will happen next in an immediate, local, and personal sense. The ability to "next" constitutes a basic kind of awareness and knowledge of one's envi

nexting robot real-time learning temporal-difference methods predictive ability

发现论文，激发创造

学习，快与慢：面向动态环境的目标导向基于记忆的方法

本研究针对基于模型的下一状态预测和状态价值预测收敛缓慢的问题，使用并行内存检索系统进行基于模型的规划，使用神经网络指导代理的行为，通过基于目标的探索在线训练，取得了 92% 的解决率，显示出 RL 模型应用于目标和子目标规划的未来。

Jan, 2023

疑虑时，慢思考：具有潜在想象力的迭代推理

我们在这项工作中提出了一种新颖的、无需训练的方法，通过在决策时应用迭代推理，基于未来状态表示的连贯性来优化被推理的智能体状态，从而提高了模型驱动的强化学习智能体的性能。

Feb, 2024

回顾状态：将模拟和真实任务要素融合以实现高效强化学习

通过把任务分解成不同的部分并利用动态的不平衡性，使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。

Mar, 2023

模拟过去的学习

本文摘要：本研究的目的是基于人类反馈对智能体进行政策学习，同时通过学习特征编码器结合学习反向模型，从而使得智能体能够向后模拟人类行为以推断人类行为背后的动机。

Apr, 2021

一次性模仿学习

本文旨在提出一个元学习框架，称之为一次学习，实现机器人从极少量的演示中学习，并即刻推广到相似的其他任务中。

Mar, 2017

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

运动中的思考：深度强化学习与并发控制

本文研究了强化学习在控制系统中的并发控制问题，提出了一种基于连续时间贝尔曼方程的离散化方法，结合深度强化学习算法实现了一个新的近似动态规划方法，并在仿真和实际机器人抓取任务中进行了验证。

Apr, 2020

了解过去预测未来：强化虚拟学习

本篇论文提出了基于预测模型，使用历史数据构建的虚拟空间的强化学习模型，能够平衡长期和短期奖励，并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下，我们的方法始终优于现有技术水平。

Nov, 2022

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022