基于实时反馈的指令跟随持续学习
研究自然语言指令生成的连续学习,在观察人类用户执行指令的基础上,并比较用户执行结果和系统原始意图的差异,以此作为信号改善系统的指令生成能力。通过与真实用户的交互,系统在语言生成能力方面表现出巨大的进步。
Aug, 2021
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
May, 2020
本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018
本文研究了利用正反馈进行与人类互动学习行为的问题,并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题,该算法能成功地在实体机器人上学习多种行为。
Jan, 2017
本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式,能够通过学习外部教师提供的结构化建议,解决复杂任务的学习难度,对拼图、导航和运动等各种任务需求的人工干预也相对较少。
Mar, 2022
研究从用户反馈中学习抽取式问答,通过模拟反馈使用监督数据,并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进,并且可以使用现有数据集在新领域部署系统,而无需任何标注。
Mar, 2022
本文研究交互式机器学习的发展和应用,探讨人类反馈对于机器人行为的影响和提高机器人性能的方法,发现人类反馈参数对于任务性能的影响很大,需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。
Jan, 2017
本文探讨了使用增强学习的方式,通过与人类交互并接受其反馈来提高对话代理的能力,模拟了在人工环境中的各种学习情况,介绍了适用于此类学习的模型,并通过机械土耳其实验验证了此方法。
Nov, 2016
本研究采用自然语言反馈作为人工智能代理的学习信号,使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数,来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习,并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。
Sep, 2020
本研究在 COACH 算法基础上,对代理策略表达进行了修改,运用深度神经网络实现按照高维视觉输入完成任务的学习,并通过 Minecraft 中实时人类反馈,10-15 分钟即可完成任务。
Feb, 2019