来自视觉语言模型的现实世界离线强化学习

Nov, 2024

来自视觉语言模型的现实世界离线强化学习

Real-World Offline Reinforcement Learning from Vision Language Model Feedback

Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Zackory Erickson, David Held

TL;DR本研究解决了在现实世界中使用离线强化学习时，数据集需手动标注奖励标签的问题，尤其在难以确定真实状态时。我们提出一种新系统，通过使用视觉语言模型的偏好反馈自动生成奖励标签，并基于此学习策略。实验表明，该方法在复杂的机器人辅助穿衣任务中表现出色，并在仿真任务中明显优于现有基线方法。

Abstract

Offline Reinforcement Learning can enable Policy Learning from pre-collected, sub-optimal datasets without online interactions. This makes it ideal for real-world robots and safety-critical scenarios, where colle

发现论文，激发创造

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需1-4个小时与实际世界进行交互。

Apr, 2019

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线RL算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020

从离线数据和众包注释中学习语言相关机器人行为

本文研究了使用自然语言标签并结合机器人交互数据集，来学习规划机器人视觉操作任务的问题，并发现此方法在具有一定自由度的语言规划任务中表现更优秀，成功地完成了使用自然语言描述的物品移动任务。

Sep, 2021

离线无模型机器人强化学习工作流程

本文提出了一种实用的线下强化学习工作流程，类似于监督学习问题的工作流程，并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中，使用此工作流程在没有在线调整的情况下生成有效策略的有效性。

Sep, 2021

离线强化学习综述：分类、评估与开放性问题

本论文提出一个在线学习和离线学习技术的归一化分类法，总结了离线RL领域的最新算法突破和现有基准的特性和不足，并提供了对未来研究方向的展望。

Mar, 2022

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

通过价值函数预训练的互联网视频机器人离线强化学习

本研究通过开发一种基于时间差分学习的系统，在机器人离线增强学习中利用大规模人类视频数据集，展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性，并且与机器人多样化数据的离线增强学习方法结合，产生在操作任务中执行更好、更稳定和具有广泛泛化性能的价值函数和策略。

Sep, 2023

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

从离线数据提取可转移机器人技能的高效策略学习

使用预训练的视觉语言模型从离线数据中提取一组离散的语义相关技能，无需人工监督，通过参数化连续参数，使机器人能够学习新任务并提高样本效率和性能表现。

Jun, 2024