在线持续学习的交互式指导跟随代理

ICLRMar, 2024

在线持续学习的交互式指导跟随代理

Online Continual Learning For Interactive Instruction Following Agents

Byeonghwi Kim, Minhyuk Seo, Jonghyun Choi

TL;DR本研究探讨了实体代理通过语言指令执行日常任务的学习过程，提出了两种持续学习设置（行为增量学习和环境增量学习），并使用置信度感知滑动平均方法（CAMA）更新过去任务的信息，从而在实证验证中取得比现有方法更好的效果。

Abstract

In learning an embodied agent executing daily tasks via language directives, the literature largely assumes that the agent learns all training data at the beginning. We argue that such a learning scenario is less realistic since a robotic agent is supposed to learn the world continuous

embodied agent continual learning behavior incremental learning environment incremental learning confidence-aware moving average

发现论文，激发创造

家庭服务机器人的长期个性化交互式连续学习架构

我们结合了持续学习、语义推理和交互式机器学习的思想，并通过人机交互开发了一种新型的交互式持续学习架构，用于在家庭环境中不断学习语义知识。我们将该架构与一个物理移动机器人集成，并在实验室环境中进行了两个月的广泛系统评估。结果表明，我们的架构能够使物理机器人能够根据用户提供的有限数据不断适应环境的变化，并利用所学知识执行物体获取任务。

Mar, 2024

评估家用机器人上的持续学习

本文提出了使用连续学习方法在低成本家用机器人上学习技能的方法，并使用 Attention-Based Interaction Policies 作为支撑，仅使用每个任务的少量示例即可完成学习。

Jun, 2023

无尽的机器人体感学习

通过大型语言模型，我们研究了在具有高度泛化能力的视觉行为克隆代理中，从视觉观察中进行复杂多模态机器人操作任务。我们提出了 NBCagent，一个语言条件下的持续学习行为克隆代理，在面对一系列具有挑战性的未知任务时，可以不断学习新的机器人操作技能的观察知识。我们设计了一个特定于技能的进化规划器来进行知识解耦，可以将新的技能特定知识不断嵌入到我们的 NBCagent 代理中。同时，我们还提出了一个技能共享的语义渲染模块和技能共享的表示蒸馏模块，有效地在语义和表示方面传递抗遗忘的技能共享知识，进一步解决了旧技能的灾难性遗忘问题。最后，我们设计了一个持续的机器人操作基准，并进行了一些昂贵的实验，证明了我们方法的显著性能。

Mar, 2024

基于实时反馈的指令跟随持续学习

通过人机协作交互提供的实时二元反馈，用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题，将用户反馈转换为立即奖励，证明了其在提高指令执行效果方面具有优势，并且反馈信号与监督式演示数据的学习信号基本等价。

Dec, 2022

通过人机交互进行连续学习 —— 重复互动中人类对连续学习机器人的认知

本论文研究了如何将基于连续学习模型的目标识别系统与移动机器人 Fetch 结合起来，以便使机器人能够在与人类用户的多个交互中继续学习。通过与 60 名参与者进行的实验，作者发现，如果机器人忘记了之前学过的目标，参与者对于连续学习机器人的信任、能力和可用性的感知将会明显降低。然而，进行 2-3 次教学和测试任务的任务负荷并不随会话数的增加而增加。此外，本研究发现，目前的连续学习模型在机器人与人类参与者交互时的可靠性较低。

May, 2023

强化连续学习

本论文提出了一种称之为强化连续学习的方法，该方法通过巧妙设计的强化学习策略为每个任务搜索最佳神经架构，不仅能够在防止灾难性遗忘方面有很好的性能，还能够适应新任务。在 MNIST 和 CIFAR-100 数据集的连续分类任务实验中，该方法优于现有的深度网络连续学习替代方案。

May, 2018

Continual World：一个用于连续强化学习的机器人基准测试

提出了 Continual World 基准，并进行了基于机器人任务的方法评估，该评估针对 Continual learning 中的前向迁移和 Catastrophic forgetting 进行优化，以提高方法在 RL 中的性能。

May, 2021

任务与动作规划的具身终身学习

提出了一个新颖的机器人终身学习问题模型，通过对任务和运动规划（TAMP）的学习利用模块化的方法设计生成混合模型，并根据辅助任务确定在线上使用共享或非共享模型，解决了数据如何在任务模型之间共享的问题。该方法在 2D 领域的模拟和 BEHAVIOR 基准测试中的实验中均实现了显著的规划成功率提升。

Jul, 2023

通过生成 3D 虚拟环境评估连续学习算法

本文提出利用 3D 虚拟环境，通过自动化生成具有逼真外观的充满生命力的动态场景，进而探索在逼真情境下基于持续学习的算法进行更新的可能性，并采用参数化描述实现对视觉输入流的可视化控制。

Sep, 2021

小批量非独立同分布下的免重复训练持续学习

本文提出了一种基于 CORe50 基准和无重演技术的新颖的持续学习协议，可在小批量非 i.i.d. 增量的挑战性情况下有效学习，并且我们的实验表明，在某些情况下，AR1 * 可以比其他最先进的无重演技术的精度提高 15％以上，而且在训练批次之间具有非常轻量和恒定的计算和存储开销。

Jul, 2019