利用大型语言模型和视觉语言模型,提出基于语言的意图跟踪(LIT)方法,用于预测人类用户的下一个意图以引导机器人进行主动的协作,实现长期协作任务中机器人和人类用户之间的顺畅协调。
Jun, 2024
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
通过引入一个有效的框架,从多任务的专家轨迹中学习使用多模式提示进行机器人操作,我们在 VIMA-BENCH 上评估了方法的功效,并建立了一个新的最先进水平(成功率提高了 10%)。此外,我们还展示了我们的模型具有显著的情境学习能力。
Oct, 2023
应用大型语言模型进行人机交互中人类意图推断的 hierarchical 方法评估
Apr, 2024
本论文提出了一个初步实现的对话管理器,利用最新的大型语言模型(如 GPT-4,IDEFICS)来将视觉能力整合到对话代理中,以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,以确保在上下文保留和计算效率之间保持平衡。通过实现这种视觉使能的对话系统,本论文展望了未来,让对话代理无缝地融合文本和视觉模态,实现更丰富、更上下文感知的对话。
本文提出了一种基于多模态视觉的交互式语言学习模型,无需平行语料库即可实现语言的相互理解和翻译,并表明使用该模型的多语言社区实现了更好和更快的翻译结果。
Oct, 2017
使用多模态提示设计了一个基于转换器的通用机器人代理 (VIMA),可以表达多种机器人操作任务,且在新颖的零激励泛化情况下优于先前的状态最优方法。
Oct, 2022
我们关注机器人操作中无监督的视觉 - 语言 - 行为映射,探索多模态变分自编码器在无监督机器人操作任务中的应用,并提出一种模型不变训练方法,成功提高模型在模拟环境中的性能,并对个体任务的挑战进行了系统评估,揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。
本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察,以提高机器人的精准操作,并在 RLBench 基准测试中成功实现 74 项任务,还表现出对未曾见过变化的任务的良好泛化性能。
Sep, 2022
提出了一种将语言模型和符号规划器相结合的新框架,通过生成语言指令和场景观察的问题描述 (PD) 来驱动符号规划器,实现语言引导的机器人规划,实验结果显示该框架能够以超过 99% 的准确率生成句法正确的问题描述和超过 58% 的准确率生成有效的机器人规划。