一种基于端到端交互的模块化体验智能体的多集 - 学习方法

Apr, 2022

一种基于端到端交互的模块化体验智能体的多集 - 学习方法

Many Episode Learning in a Modular Embodied Agent via End-to-End Interaction

Yuxuan Sun, Ethan Carlson, Rebecca Qian, Kavya Srinet, Arthur Szlam

TL;DR本文介绍了一个基于身体型机器学习的代理系统，通过与人群工作者互动，改进自身。我们通过多次自动化的人 - 代理交互，学分分配，数据注释，重训练和重新部署模型来证明代理改进。

Abstract

In this work we give a case study of an embodied machine-learning (ML) powered agent that improves itself via interactions with crowd-workers

embodied machine-learning agent crowd-workers interaction model re-training

发现论文，激发创造

端到端任务完成神经对话系统

本文介绍了一种基于强化学习的新型端到端对话系统学习框架，用于解决模块化任务完成功能对话系统在训练和使用中面临的挑战。研究的实验表明，该端到端系统不仅在客观和主观评估中优于传统的模块化对话系统基线，而且在处理语言理解模块的各种误差时具有稳健性。

Mar, 2017

朝向自学习的端到端任务导向对话系统

本文研究了如何通过自学习的方式使得 Task Bots 自适应于动态环境，并提出了 SL-AGENT 框架，该框架包含一个对话模型和一个预训练的奖励模型，能够在无需或最小化人工标注的情况下通过强化学习在人机交互中学习，并在自动和人工评估中证明其有效性。

Jan, 2022

多智体合奏的端到端优化与学习

本文提出了一种名为 e2e-MEL 的策略，通过将约束优化和学习相结合，将集成学习任务变成可微分的选择程序，学习为特定输入样本选择适当的预测器进行组合，结果表明，e2e-MEL 在各种设置中都可以明显优于传统共识规则。

Nov, 2022

基于零样本学习的机器教学构建模块化智能代理

利用大型语言模型作为零射击学习器的模块化人工智能代理的鲁棒性和性能可以通过迭代式机器教学方法提升，该方法通过有限的人类反馈在时间上训练人工智能代理，从而解决零射击学习的质量限制，并利用初始部署的数据和零射击学习器的输出或注解来训练更小且任务特定的替代模型，从而降低经济成本和环境影响。在三个与对话式人工智能代理相关的任务上的结果表明，在任务的复杂性和零射击学习器的性能决定下，仅对数据集的 20-70% 进行监督就可以实现接近理想结果的性能。

Jan, 2024

端到端学习的极限

本文讨论了端到端学习技术在复杂数据处理体系结构中的可扩展性，并指出了它存在的潜在缺陷，特别是在利用神经网络现有的模块化设计方面的不足。作者的简单实验证明了这些效率问题，甚至导致学习完全崩溃。

Apr, 2017

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

无尽的机器人体感学习

通过大型语言模型，我们研究了在具有高度泛化能力的视觉行为克隆代理中，从视觉观察中进行复杂多模态机器人操作任务。我们提出了 NBCagent，一个语言条件下的持续学习行为克隆代理，在面对一系列具有挑战性的未知任务时，可以不断学习新的机器人操作技能的观察知识。我们设计了一个特定于技能的进化规划器来进行知识解耦，可以将新的技能特定知识不断嵌入到我们的 NBCagent 代理中。同时，我们还提出了一个技能共享的语义渲染模块和技能共享的表示蒸馏模块，有效地在语义和表示方面传递抗遗忘的技能共享知识，进一步解决了旧技能的灾难性遗忘问题。最后，我们设计了一个持续的机器人操作基准，并进行了一些昂贵的实验，证明了我们方法的显著性能。

Mar, 2024

在线持续学习的交互式指导跟随代理

本研究探讨了实体代理通过语言指令执行日常任务的学习过程，提出了两种持续学习设置（行为增量学习和环境增量学习），并使用置信度感知滑动平均方法（CAMA）更新过去任务的信息，从而在实证验证中取得比现有方法更好的效果。

Mar, 2024

通过联合学习评论和评估的方式创建神经教学代理

本文介绍了一种基于双向递归神经网络和嵌入式问题 - 答案对的关注机制的神经教学代理，用于实时预测移动教育应用用户响应正确性的任务。通过在名为 SantaTOEIC 的移动教育应用程序上进行的实验证明，我们的模型优于现有方法，并且在新用户中表现出色，同时提供了一种可解释的教育平台，其中包括智能复习系统。

Jun, 2019

用于模块化多任务机器学习系统的多路径代理

该研究介绍了一种新的机器学习模型生成方法，基于 agent-based system 的思想，可以通过并行计算和合作竞争的方式为多个图像分类任务生成和扩展多模块的深度学习模型。在针对每个数据样本进行的简单并行路由方法的训练下，可以提高组合解决方案的质量。

Feb, 2023