利用视听转换器的主动人机交互

Oct, 2023

Proactive Human-Robot Interaction using Visuo-Lingual Transformers

Pranay Mathur

TL;DR提出了一种基于视觉 - 语言多模态转换器的方法，通过从场景中提取视觉线索、用户的语言命令和对先前物体之间的交互的知识，识别和主动预测用户打算实现的潜在目标，并在适当的情况下主动建议任务，从而改进人机协作的直观程度。

Abstract

Humans possess the innate ability to extract latent visuo-lingual cues to infer context through human interaction. During collaboration, this enables proactive prediction of the underlying intention of a series o

visuo-lingual cues proactive prediction robotic agents human-robot collaboration viling-mmt

发现论文，激发创造

大型语言模型驱动的积极人机协作意图跟踪 —— 机器人助理厨师应用

利用大型语言模型和视觉语言模型，提出基于语言的意图跟踪（LIT）方法，用于预测人类用户的下一个意图以引导机器人进行主动的协作，实现长期协作任务中机器人和人类用户之间的顺畅协调。

Jun, 2024

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在 VIMA-BENCH 上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了 10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

将苹果与橙子进行比较：在物体分类任务中使用 LLM 强化的多模态意图预测

应用大型语言模型进行人机交互中人类意图推断的 hierarchical 方法评估

Apr, 2024

实现视觉辅助对话的社交机器人

本论文提出了一个初步实现的对话管理器，利用最新的大型语言模型（如 GPT-4，IDEFICS）来将视觉能力整合到对话代理中，以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要，以确保在上下文保留和计算效率之间保持平衡。通过实现这种视觉使能的对话系统，本论文展望了未来，让对话代理无缝地融合文本和视觉模态，实现更丰富、更上下文感知的对话。

Nov, 2023

多智能体通信中的突现式翻译

本文提出了一种基于多模态视觉的交互式语言学习模型，无需平行语料库即可实现语言的相互理解和翻译，并表明使用该模型的多语言社区实现了更好和更快的翻译结果。

Oct, 2017

VIMA: 多模态提示的通用机器人操作

使用多模态提示设计了一个基于转换器的通用机器人代理 (VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。

Oct, 2022

跨越语言、视觉和行动：多模态 VAEs 在机器人操作任务中的应用

我们关注机器人操作中无监督的视觉 - 语言 - 行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Apr, 2024

面向机器人操作的指导驱动历史感知策略

本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察，以提高机器人的精准操作，并在 RLBench 基准测试中成功实现 74 项任务，还表现出对未曾见过变化的任务的良好泛化性能。

Sep, 2022

机器人任务规划的视觉语言解释器

提出了一种将语言模型和符号规划器相结合的新框架，通过生成语言指令和场景观察的问题描述 (PD) 来驱动符号规划器，实现语言引导的机器人规划，实验结果显示该框架能够以超过 99% 的准确率生成句法正确的问题描述和超过 58% 的准确率生成有效的机器人规划。

Nov, 2023