基于语言反馈的动态环境自适应策略设计方法:RE-MOVE
通过内部记忆的方法,学习适用于高维连续系统(如机器人操纵器)的策略,通过把记忆状态加到系统的状态和动作空间中,使用有监督学习方法Guided Policy Search分解策略搜索问题,并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略
Jul, 2015
该研究提出了一种导航指南模型,使机器人能够生成自然语言指令,帮助人们在事先未知的环境中进行导航,该模型使用人类演示数据通过反向强化学习训练决策策略,并通过神经序列到序列模型从自然语料库中生成自由形式的语句,实验测评表明,在与人类参考指令进行比较时,该方法获得了72.18%的BLEU分数,并且缩小了人类与机器人交互时的差距。
Oct, 2016
本文提出了一种新颖的,提前计划的混合增强学习模型,将模型无关的和模型基于的强化学习相结合,以解决实际的视觉语言导航任务,并且实验结果表明,该方法在真实数据集上表现最佳,还具有更好的可扩展性。
Mar, 2018
本文提出了一种名为CAPS的上下文感知策略重用方法,它学习何时和哪个源策略最适合重用以及何时终止其重用,从而提高了转移效率并保证了收敛和最优性。实验结果表明,CAPS在网格导航领域和Pygame学习环境中明显优于其他最先进的策略重用方法。
Jun, 2018
使用语言指导下的路径规划,研究机器人领域中的导航方式和交互问题。通过变换不同的机器学习模型,来探索不同的路径预测方法,并发现在navigation metrics上,更具表现力的模型能够帮助机器人找到更优秀、更简单、更快速的路径,而低层动作则能够通过近似最短路径来获取更好的路径规划结果。
Oct, 2021
通过非专业用户提供的低质量、非同步和嘈杂的反馈,人类引导探索(HuGE)技术在强化学习中引导探索,无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现:人类反馈引导探索,而来自探索数据的自我监督学习产生无偏的策略。HuGE能够借助非专业用户的众包反馈在模拟环境中学习各种具有挑战性的多阶段机器人导航和操纵任务。此外,这个方法还可以通过来自人类监督员的偶尔异步反馈来直接在真实世界中学习。
Jul, 2023
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明,该系统能够有效地学习行为。
Oct, 2023
本研究解决了学习的语言条件机器人策略在适应新实际任务时的低效问题。我们提出了一种名为PALO的创新方法,通过利用视觉-语言模型对任务分解的语义理解,结合少量示例和语言分解,实现快速的非参数适应。实验结果表明,PALO在长时限、多层次的任务中表现优越,超越了现有的状态下的预训练通用策略。
Aug, 2024
本研究解决了移动机器人在动态变化环境中导航时的有效性问题,提出了一种直接的方式监测机器人当前规划并检测环境变化。通过解析自然语言反馈为导航点并整合进全局规划系统,该方法在现实环境中经测试验证了其有效性和鲁棒性,具有在精准农业和建筑等领域应用的潜力。
Sep, 2024