基于实时反馈的指令跟随持续学习

Dec, 2022

基于实时反馈的指令跟随持续学习

Continual Learning for Instruction Following from Realtime Feedback

Alane Suhr, Yoav Artzi

TL;DR通过人机协作交互提供的实时二元反馈，用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题，将用户反馈转换为立即奖励，证明了其在提高指令执行效果方面具有优势，并且反馈信号与监督式演示数据的学习信号基本等价。

Abstract

We study the problem of continually training an instruction-following agent through feedback provided by users during collaborative interactions. During interaction, human users instruct an agent using

instruction-following agent collaborative interactions natural language contextual bandit problem feedback signal

发现论文，激发创造

通过观察人类跟随行为实现基于场景指导生成的连续学习

研究自然语言指令生成的连续学习，在观察人类用户执行指令的基础上，并比较用户执行结果和系统原始意图的差异，以此作为信号改善系统的指令生成能力。通过与真实用户的交互，系统在语言生成能力方面表现出巨大的进步。

Aug, 2021

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

端到端可训练任务导向对话系统中的人类教学与反馈对话学习

本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统，该方法包括强化学习和模仿学习，通过神经网络来优化并能够从用户教学中进行学习。实验结果表明，该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误，并在模仿学习阶段之后应用强化学习提高完成任务的能力。

Apr, 2018

基于策略相关人类反馈的交互式学习

本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。

Jan, 2017

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

基于用户反馈的摘录式问答中的赌博学习模拟

研究从用户反馈中学习抽取式问答，通过模拟反馈使用监督数据，并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进，并且可以使用现有数据集在新领域部署系统，而无需任何标注。

Mar, 2022

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

人机对话学习

本文探讨了使用增强学习的方式，通过与人类交互并接受其反馈来提高对话代理的能力，模拟了在人工环境中的各种学习情况，介绍了适用于此类学习的模型，并通过机械土耳其实验验证了此方法。

Nov, 2016

从语言反馈中学习奖励

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019