实现视觉辅助对话的社交机器人

Nov, 2023

I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in Social Robots

Giulio Antonio Abbo, Tony Belpaeme

TL;DR本论文提出了一个初步实现的对话管理器，利用最新的大型语言模型（如 GPT-4，IDEFICS）来将视觉能力整合到对话代理中，以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要，以确保在上下文保留和计算效率之间保持平衡。通过实现这种视觉使能的对话系统，本论文展望了未来，让对话代理无缝地融合文本和视觉模态，实现更丰富、更上下文感知的对话。

Abstract

In the rapidly evolving landscape of human-computer interaction, the integration of vision capabilities into conversational agents stands as a crucial advancement. This paper presents an initial implementation of

human-computer interaction vision capabilities dialogue manager large language models contextually aware conversational agent

发现论文，激发创造

FurChat：基于 LLMs 的具身对话智能体，结合开放与封闭领域的对话与面部表情

利用大型语言模型开发一个具有身体感应的对话机器人，可以作为接待员产生混合的开放和闭环式对话，并具备面部表情，通过自然对话与访问者进行互动，向他们提供有关设施、研究、新闻、即将到来的活动等信息。

Aug, 2023

ROSGPT_Vision：仅使用语言模型提示来指挥机器人

通过使用语言模型提示，我们提出了新一代机器人可以通过使用机器人模态语言模型（MLM）单独独立地与特定的机器人模态进行通信。一个中央任务模态通过大型语言模型（LLM）中介整个通信过程以执行机器人任务。我们将这种新的机器人设计模式命名为 Prompting Robotic Modalities（PRM），并在一个新的机器人框架 ROSGPT_Vision 中应用了这种 PRM 设计模式。ROSGPT_Vision 通过仅使用两个提示（一个视觉提示和一个 LLM 提示）来执行机器人任务，实现了处理视觉数据、做出明智决策和自动执行操作的能力。

Aug, 2023

发展交互式旅游规划：由大型语言模型驱动的对话机器人系统

我们旨在构建一个系统，不仅利用大型语言模型的灵活对话能力，还利用其先进的规划能力，降低人类对话者的讲话负担并高效地规划行程。我们提出了一种将旅行社的复杂任务划分为多个子任务的方法，将每个子任务作为一个独立阶段进行管理，以有效地完成任务。我们的提出的系统在 2023 年对话机器人比赛的预赛中取得了一定的成功，并报告了比赛中发现的挑战。

Dec, 2023

利用视听转换器的主动人机交互

提出了一种基于视觉 - 语言多模态转换器的方法，通过从场景中提取视觉线索、用户的语言命令和对先前物体之间的交互的知识，识别和主动预测用户打算实现的潜在目标，并在适当的情况下主动建议任务，从而改进人机协作的直观程度。

Oct, 2023

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

InsightSee：提升多智能体视觉语言模型以增强视觉理解力

InsightSee 是一个多智能体框架，用于增强视觉语义模型在处理复杂的视觉理解场景中的解释能力，通过改进视觉信息处理的过程，提高了特定视觉任务的性能，并在 6 个基准测试中超越了现有算法，实现了多模态理解的重大进展。

May, 2024

InternChat: 通过与聊天机器人互动解决以视觉为中心的任务 —— 超越语言

我们提出了一个交互式的可视化框架 InternChat，它整合了具有规划和推理能力的聊天机器人（如 ChatGPT）和指向动作等非语言指令，以使用户可以直接在屏幕上操作图像或视频。该框架通过结合指向动作和聊天机器人显著提高了用户和聊天机器人之间的交流效率和在视觉中心任务中聊天机器人的准确性。在 iChat 中，我们使用了辅助控制机制来提高 LLM 的控制能力，并且用高质量的多模态对话 Fine-tuned 了一个大型视觉语言模型 Husky，效果超越 GPT-4。

May, 2023

训练一种视觉语言模型作为智能手机助手

利用大型语言模型和视觉语言模型，我们的研究致力于解决数字助理执行各种用户任务的挑战，特别是在基于指令的移动设备控制领域。通过与用户界面进行交互，我们的模型利用设备屏幕的视觉输入并模拟人类般的交互，包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是，我们的模型不仅仅操作单个屏幕图像，还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。

Apr, 2024

VoicePilot: 利用语言模型作为机器人辅助的语音界面

通过结合大规模语言模型作为语音界面，我们提出了一个框架，用于将大规模语言模型应用于物理辅助机器人，以实现高水平任务规划和代码生成，并通过实证研究为物理辅助机器人的语音界面设计提供指导。

Apr, 2024

多模态开放领域对话

本文旨在研究结合先进的开放域对话代理和视觉模型，以实现多模态对话的目标，研究不同的图像融合方案和域自适应预训练和微调策略，并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型，而且在纯文本对话方面表现也和其前身 BlenderBot 一样好，同时我们还研究并整合了安全组件，展示这种努力不会削弱模型性能方面的吸引力度量。

Oct, 2020