块世界中的修复:处理用户更正的新基准与多模态语言模型
该研究提出了DialFRED,一个基于ALFRED基准的对话启用的具有体现指导AI的基准,其允许代理主动向人类用户提问,并利用用户响应中的附加信息来更好地完成其任务。使用人类注释的数据集和强化学习调整预先训练的提问者来解决DialFRED,并且鼓励研究人员提出和评估构建具有对话功能的体现代理的解决方案。
Feb, 2022
本论文提出了一种基于语言纠正的潜在行为框架(LILAC),旨在解决当前指令跟随机器人缺乏适应性和学习效率低的问题,通过在执行过程中在线纳入和适应自然语言纠正(“向右”,或“不,向书”),从而实现对丰富的操纵领域的探索和高精度的操作,提高了任务完成率和用户体验。
Jan, 2023
本文提出了一个新方法,即在多模态协作对话游戏中注释说明澄清请求,并使用此数据集为基础,展开了数据驱动的说明研究,探索了何时提出说明澄清请求以及如何互相认识它们的能力。
Feb, 2023
DR-HAI框架是用于增强人工智能交互的一种基于论证的新型框架,具有多发性协调范式,并不预设人类用户的模型,实现了可交互式协调,以解决解释者和被解释者之间的知识差异。研究结果表明 DR-HAI 是促进有效人机交互的一种有前途的方法。
Jun, 2023
处理不正常交流对于鲁棒和忠实的会话型人工智能至关重要。我们收集和公开发布了Repair-QA,这是第一个大型的用于会话型问答设置中的第三位置修复的数据集。通过训练和评估强大的基准模型来展示数据的有效性,并且结果表明,GPT-3模型在修复方面的性能从开箱即用时较差,但在接触到Repair-QA后显著改善。
Jul, 2023
在这篇论文中,我们使用先前学习的动态句法语法和CHILDES语料库开发、训练和评估了一个概率模型,该模型用于增量生成,其中模型的输入是纯语义生成目标概念(TTR)。我们证明了该模型的输出与黄金候选项的准确匹配率为78%,ROUGE-l评分为0.86。我们进一步对同一模型在生成目标在发话过程中发生变化时产生自我修复的能力进行了零次评估。自动评估显示模型能够在85%的情况下正确生成自我修复。小规模的人工评估确认了生成的自我修复的自然性和语法性。总体而言,这些结果进一步突显了基于语法的模型的泛化能力,并为更可控和自然交互的对话型人工智能系统奠定了基础。
Aug, 2023
通过分析与Google助手和Siri的互动,本研究探讨了对话修复中互动语言在虚拟助手和用户之间的重要性,并发现虚拟助手在生成策略方面存在差异,但不能复制人类的修复策略。用户接受度调查显示英语和西班牙语用户在修复策略偏好和虚拟助手使用上存在不同。这些结果揭示了人类间互动语言与人机交互之间的不平等问题,强调了需要进一步研究交互语言在英语和其他语言中对人机交互的影响。
Nov, 2023
通过Distillation and Retrieval of Online Corrections (DROC)这个基于大型语言模型(LLM)的系统,我们展示了一种能够回应任意形式的语言反馈、从纠正中提取通用知识以及基于文本和视觉相似性检索相关的先前经验来提高在新环境中表现的方法。DROC能够回应一系列在线语言纠正,解决高级任务计划和低级技能元素的失败,并证明在新的任务或对象实例中,DROC能够有效地提取在线纠正序列中的相关信息并检索该知识。与直接生成机器人代码的LLM相比,DROC只需要一半的纠正次数,并且在两轮迭代后几乎不需要纠正,从而提升了性能。
Nov, 2023
本研究解决了“未觉知重组”这一交互式任务学习的挑战性场景,即在机器人对关键概念不知情的情况下进行环境操控。我们提出的SECURE框架通过具身对话修正不足的领域模型,使机器人能够在用户纠正反馈的基础上,学习利用新的概念,这种能力使机器人能够普遍适应后续任务并有效学习。
Sep, 2024