基于语言反馈的动态环境自适应策略设计方法：RE-MOVE

Mar, 2023

基于语言反馈的动态环境自适应策略设计方法：RE-MOVE

RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via Language-Based Feedback

Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Pratap Tokekar, Amrit Singh Bedi...

TL;DR提出了一种基于强化学习的新方法 RE-MOVE，其利用基于语言的反馈来实现多样化真实时环境的适应，能够帮助机器人在复杂环境中进行动态导航，并进行快速决策。

Abstract

reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (\textb

发现论文，激发创造

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法Guided Policy Search分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

利用神经机器翻译实现反强化学习导航指令生成

该研究提出了一种导航指南模型，使机器人能够生成自然语言指令，帮助人们在事先未知的环境中进行导航，该模型使用人类演示数据通过反向强化学习训练决策策略，并通过神经序列到序列模型从自然语料库中生成自由形式的语句，实验测评表明，在与人类参考指令进行比较时，该方法获得了72.18%的BLEU分数，并且缩小了人类与机器人交互时的差距。

Oct, 2016

先斩后奏：桥接基于模型和基于模型的无模型强化学习，为规划先进的视觉语言导航

本文提出了一种新颖的，提前计划的混合增强学习模型，将模型无关的和模型基于的强化学习相结合，以解决实际的视觉语言导航任务，并且实验结果表明，该方法在真实数据集上表现最佳，还具有更好的可扩展性。

Mar, 2018

上下文感知策略复用

本文提出了一种名为CAPS的上下文感知策略重用方法，它学习何时和哪个源策略最适合重用以及何时终止其重用，从而提高了转移效率并保证了收敛和最优性。实验结果表明，CAPS在网格导航领域和Pygame学习环境中明显优于其他最先进的策略重用方法。

Jun, 2018

连续环境下基于指令导航的航点模型

使用语言指导下的路径规划，研究机器人领域中的导航方式和交互问题。通过变换不同的机器学习模型，来探索不同的路径预测方法，并发现在navigation metrics上，更具表现力的模型能够帮助机器人找到更优秀、更简单、更快速的路径，而低层动作则能够通过近似最短路径来获取更好的路径规划结果。

Oct, 2021

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

目标的脚印：从人-环交互反馈中获得目标条件的探索

通过非专业用户提供的低质量、非同步和嘈杂的反馈，人类引导探索（HuGE）技术在强化学习中引导探索，无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现：人类反馈引导探索，而来自探索数据的自我监督学习产生无偏的策略。HuGE能够借助非专业用户的众包反馈在模拟环境中学习各种具有挑战性的多阶段机器人导航和操纵任务。此外，这个方法还可以通过来自人类监督员的偶尔异步反馈来直接在真实世界中学习。

Jul, 2023

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

通过语言优化进行政策适应：对少样本模仿任务的分解

本研究解决了学习的语言条件机器人策略在适应新实际任务时的低效问题。我们提出了一种名为PALO的创新方法，通过利用视觉-语言模型对任务分解的语义理解，结合少量示例和语言分解，实现快速的非参数适应。实验结果表明，PALO在长时限、多层次的任务中表现优越，超越了现有的状态下的预训练通用策略。

Aug, 2024

基于语言指导的动态变化环境中的移动机器人稳健导航

本研究解决了移动机器人在动态变化环境中导航时的有效性问题，提出了一种直接的方式监测机器人当前规划并检测环境变化。通过解析自然语言反馈为导航点并整合进全局规划系统，该方法在现实环境中经测试验证了其有效性和鲁棒性，具有在精准农业和建筑等领域应用的潜力。

Sep, 2024