LAD: 基于语言增强扩散(RL)技术

Oct, 2022

LAD: Language Augmented Diffusion for Reinforcement Learning

Edwin Zhang, Yujie Lu, William Wang, Amy Zhang

TL;DR该研究论文提出了一种基于语言增强扩散模型的规划方法，该方法可以很好地捕捉语言、动作和状态之间的复杂关系，并在机器人领域实现了较高的成功率。

Abstract

Learning skills from language provides a powerful avenue for generalization in reinforcement learning, although it remains a challenging task as it requires agents to capture the complex interdependencies between language, actions, and states. In this paper, we propose leveraging Langu

发现论文，激发创造

FollowNet：深度强化学习下基于自然语言指令的机器人导航

通过不同的神经网络架构，自然语言指令、视觉和深度输入被映射为机器行动的原语，RL 算法在稀疏奖励下学习状态表示、注意力函数和控制策略。在模拟家庭环境下的自然语言导航中，模型展示出了30%的改进和52%的成功率。

May, 2018

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

CALVIN: 一种针对长时间跨度机器人操作任务的语言条件策略学习基准

本文提出了CALVIN（通过语言和视觉组合动作）这一开放源代码数据集，目的是让机器人代理能够通过追踪无限制的语言指令来解决许多长期性的机器人操纵任务，并支持传感器套件的灵活规定。在零-shot条件下，实验证明基于多环境下的学习的基线模型在CALVIN任务中表现不佳，因此本数据集对开发学习如何将人类语言与世界模型相关联的创新代理具有重要意义。

Dec, 2021

内部-外显任务语言发展与翻译驱动的自然语言指导下的强化学习

采用内部-外部模式的自然语言控制强化学习方法使用任务语言与谓词表示来学习多个断言以模拟对象关系，并将翻译器用于自然语言到任务语言的转换，有效地提高13.4%的成功率和适应性，并成为有效的任务抽象形式，与层次强化学习相容。

Feb, 2023

使用大型语言模型条件性地组合机器人技能

该论文介绍了一个名为“语言世界”的元世界基准的扩展，该基准允许使用大型语言模型在模拟机器人环境中使用半结构化自然语言查询和使用自然语言描述的脚本技能。通过使用与元世界相同的任务集，可以轻松将语言世界的结果与元世界的结果进行比较，从而比较使用大型语言模型和使用深度强化学习的最新方法之间的差异。其次，该论文介绍了一种名为“Plan Conditioned Behavioral Cloning”的方法，该方法允许使用端到端演示来优化高级计划的行为。使用语言世界，我们展示了PCBC能够在各种少样本情况下实现强大的性能，通常只需要一个演示即可实现任务的泛化。我们已经将语言世界作为开源软件提供，链接为https://URL。

Oct, 2023

强化学习的扩散模型：综述

扩散模型已成为一个突出的生成模型类别，超越了以往的方法，提高了样本质量和训练稳定性。本文概述了这一新兴领域的进展，并希望激发新的研究方向。我们首先研究了当前强化学习算法面临的几个挑战，然后根据扩散模型在强化学习中的角色提出了现有方法的分类，并探讨了如何解决当前的挑战。我们进一步概述了扩散模型在各种与强化学习相关的任务中的成功应用，同时讨论了当前方法的局限性。最后，我们总结了调研结果，并提出了关于增强模型性能和将扩散模型应用于更广泛任务的研究方向。我们正在积极维护一个在GitHub上的代码仓库，用于与扩散模型在强化学习中应用相关的论文和其他资源。

Nov, 2023

PlayFusion: 通过语言标注游戏实践实现技能获得

通过学习无结构和未经整理的数据来生成语言和视觉方面的方法成为了主流。本论文研究了从带有事后语言标签的无结构游戏数据中学习目标导向技能策略的问题，并借助扩散模型的进展，从无结构游戏数据中提取机器人技能。

Dec, 2023

视频-语言评论家: 用于语言条件机器人的可转移奖励函数

基于视频-语言评论家的奖励模型，可以在现有的跨体现数据上进行训练，使用对比学习和时间排序目标，对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中，通过在Open X-Embodiment数据上训练奖励模型，实现了比仅稀疏奖励模型更高效的策略训练，尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明，相比先前使用二元分类训练的语言条件奖励模型，静态图像或不利用视频数据中的时间信息，我们的方法实现了更高效的训练。

May, 2024

LGR2：语言引导的奖励重新标记加速分层强化学习

开发交互系统，利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了LGR2，这是一种新颖的层次强化学习框架，利用语言指令生成上层政策的稳定奖励函数，以解决非稳态问题，从而有效地利用语言指令解决机器人控制任务。通过实证分析，我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中获得了超过70%的成功率，并在真实世界的场景中展示了出色的泛化能力。

Jun, 2024

面向策略学习的文本感知扩散

使用文本条件的扩散模型进行密集的无示范奖励信号计算，以从自然语言中学习零样本目标实现和持续运动行为的策略学习，并在机器人操纵任务中竞争性表现。

Jul, 2024