自我提升机器人：端到端自主视觉动作强化学习

Mar, 2023

自我提升机器人：端到端自主视觉动作强化学习

Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning

Archit Sharma, Ahmed M. Ahmed, Rehaan Ahmad, Chelsea Finn

TL;DR提出MEDAL ++算法，利用少量的专家演示，在无需人工监督或监管的情况下，通过同时学习任务和任务的反向操作，自主地练习任务，从演示中推断出奖励函数，并从高维视觉输入端到端学习策略和奖励函数。在模拟和真实机器人实验中，MEDAL++都表现出了优秀的表现，证明其比基于视觉的现有方法更具数据效率且表现更优秀。

Abstract

In imitation and reinforcement learning, the cost of human supervision limits the amount of data that robots can be trained on. An aspirational goal is to construct self-improving robots: robots that can learn an

发现论文，激发创造

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需1-4个小时与实际世界进行交互。

Apr, 2019

真实世界机器人强化学习的要素

本研究提出了一种基于强化学习的机器人学习系统，通过无需人工干预的自主学习，在真实世界环境下实现智能机器人的不断优化和提高。以灵巧操作为案例研究，探究了在无工具化监控和无手工奖励函数的情况下学习的挑战，并提出了简单、可扩展的解决方案，通过多次灵巧操作任务实验验证了该系统的高效性和优越性。

Apr, 2020

特征扩张奖励学习：重新思考人类输入

本文提出了一种人与机器人交互的新方式，通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征，然后将其集成到奖励函数中，大大降低了样本复杂度并提高了奖励的泛化性能。

Jun, 2020

MT-Opt: 大规模连续多任务机器人强化学习

研究一种大规模集体机器人学习系统，可以同时获取多项行为并跨越不同任务，通过MT-Opt来学习广泛技能，并证明其在结构相似的新任务上可以泛化并且可以通过利用过去的经验更快地获取独特的新任务，从而提高系统的性能和功能。

Apr, 2021

机器人的精细调整简化：自主现实世界强化学习的预训练奖励和策略

通过使用预训练和微调范式，我们引入RoboFuME系统，利用网络上的数据和模型，允许机器人在几乎没有人工干预的情况下学习新任务，并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器，在线进行微调并提供奖励信号，从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中，我们的方法表现出色。

Oct, 2023

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

SERL: 一套用于样本高效的机器人强化学习的软件套件

我们开发了一种精心实现的库，其中包含一种样本高效的离线深度强化学习方法，以及用于计算奖励和重置环境的方法，一个广泛采用的机器人的高质量控制器，和几个具有挑战性的示例任务。我们希望这些有希望的结果和我们的高质量开源实现将为机器人学界提供一个工具，以促进机器人强化学习的进一步发展。

Jan, 2024

SELFI: 自主社会导航自我提升的强化学习

提出了一种名为SELFI的在线学习方法，该方法通过在离线模型训练的基础上运用在线无模型强化学习来快速优化预先训练的控制策略，以实现自主自我改进的机器人行为，并在实际环境中进行评估，展示出在避免碰撞和更社会合规行为方面的改进。

Mar, 2024

视频-语言评论家: 用于语言条件机器人的可转移奖励函数

基于视频-语言评论家的奖励模型，可以在现有的跨体现数据上进行训练，使用对比学习和时间排序目标，对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中，通过在Open X-Embodiment数据上训练奖励模型，实现了比仅稀疏奖励模型更高效的策略训练，尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明，相比先前使用二元分类训练的语言条件奖励模型，静态图像或不利用视频数据中的时间信息，我们的方法实现了更高效的训练。

May, 2024