互动学习和辅助学习

AAAIJun, 2019

Learning to Interactively Learn and Assist

Mark Woodward, Chelsea Finn, Karol Hausman

TL;DR本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Abstract

When deploying autonomous agents in the real world, we need effective ways of communicating objectives to them. Traditional skill learning has revolved around reinforcement and imitation learning, each with rigid

autonomous agents skill learning interactive learning multi-agent training performance

发现论文，激发创造

模仿交互智能

通过虚拟环境中的交互式训练、行为测试和逆强化学习技术，实现了大规模人类行为模仿，提高了人工智能代理的交互能力，并成功解决了代理评估方面的挑战。

Dec, 2020

自我对话交互式强化学习的物体定位

本文介绍了一个交互式培训方法，以改进自然语言对话系统的视觉基础任务。培训过程中，共同的奖励函数引导着两个代理逐渐适应并合作完成任务，同时，该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题，但我们提出使用奖励工程来提高生成对话的可解释性。此外，该研究结果表明评估目标为视觉对话任务时，需要比任务成功率更有语义相关性的评估标准。

Dec, 2017

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

通过叙述式示范进行奖励学习

该研究提出了一种联合学习自然语言基础和可教授行为策略的方法，并使用叙述视觉演示（NVD）对其进行监督。通过将指导者描述映射到感知奖励探测器，训练对应的行为策略。通过实验表明，具有自然语言指导的可教授代理人可以在测试时执行涉及新对象和新位置的行为。

Apr, 2018

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

从活动描述中进行交互式学习

提出了一种交互式学习协议，可以通过口头描述训练实现请求响应的代理程序，相对于强化学习和模仿学习，这种协议提供了更多的反馈并提高了样本效率，通过实验和理论保证，证明了该方法的优势在于更加样本高效且具有竞争性的成功率。

Feb, 2021

渐进高效学习

通过使用名为通信效率交互学习（CEIL）的新学习框架，将人类的渐进式高效沟通方式复制到 AI 代理中，以抽象、动态的语言装备学习代理，并在最小化通信的同时激励学习，实现了人类模式的出现，使学习者和教师通过交换越来越抽象的意图逐渐高效地沟通，该框架在 2D MineCraft 领域的决策性任务中表现出了令人印象深刻的性能和沟通效率，与同样数量的教师互动相比，使用 CEIL 训练的代理快速掌握新任务，绝对成功率比非分层和分层模仿学习分别提高了 50% 和 20%，特别是在以人类实用沟通行为为模型的教师模型中表现出了稳健性。

Oct, 2023

如何与人工智能对话：指令，描述和自主性

研究从语言中学习以实现语言使用与机器智能的价值对齐，分析了两种不同类别的语言，即指令和描述，运用上下文强化学习进行形式化的建模，并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。

Jun, 2022

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

合作多智体强化学习中的教学学习

本文提出了一种新的算法，名为 Learning to Coordinate and Teach Reinforcement（LeCTR），通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议，从而改善整个团队性能和学习效果。实证比较表明，我们的教学代理不仅学习速度更快，而且在现有方法失败的任务中也学会了协作。

May, 2018