AVA：通过视觉感知驱动的决策使成为自主可视化代理

Dec, 2023

AVA：通过视觉感知驱动的决策使成为自主可视化代理

AVA: Towards Autonomous Visualization Agents through Visual Perception-Driven Decision-Making

Shusen Liu, Haichao Miao, Zhimin Li, Matthew Olson, Valerio Pascucci...

TL;DR我们的研究探索多模式基础模型在可视化中的应用，利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs)，它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架，并展示了几种使用场景，以展示该提议范例的普适性。这些 AVAs 作为虚拟可视化助手可以协助领域专家完成可视化输出的参数选择，即使他们缺乏调整可视化输出的知识或专业技能。我们的初步探索和概念验证代理人表明，这种方法在需要解释以往可视化输出以选择适当的可视化参数时可广泛应用。我们与人工智能研究、医学可视化和放射学等领域的专家进行了非结构化访谈，并结合了他们的反馈，突出了 AVAs 的实用性和潜力。我们的研究表明，AVAs 代表了一种设计智能化可视化系统的通用范式，可实现高级可视化目标，为未来发展专家级可视化代理人铺平了道路。

Abstract

With recent advances in multi-modal foundation models, the previously text-only large language models (LLM) have evolved to incorporate visual input, opening up unprecedented opportunities for various applications in visualization. Our work explores the utilization of the →

multi-modal foundation models autonomous visualization agents visual perception virtual visualization assistant intelligent visualization systems

发现论文，激发创造

基于大型语言模型的自主视觉信息获取

本文提出了一种基于大型语言模型的自主信息查找视觉问答框架 (AVIS)，包括三个组件：动态决定下一个工具的 LLM 规划器、分析和提取工具输出关键信息的 LLM 推理器，以及在整个过程中保留所获取信息的工作记忆组件。通过用户行为作为向导，该系统通过分析用户决策顺序创建转换图，并利用用户决策制定决策策略，从而实现了在 Infoseek 和 OK-VQA 等知识密集型视觉问答基准测试中取得了最新的成果。

Jun, 2023

InsightSee：提升多智能体视觉语言模型以增强视觉理解力

InsightSee 是一个多智能体框架，用于增强视觉语义模型在处理复杂的视觉理解场景中的解释能力，通过改进视觉信息处理的过程，提高了特定视觉任务的性能，并在 6 个基准测试中超越了现有算法，实现了多模态理解的重大进展。

May, 2024

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

走向自顶向下推理：可解释的多代理视觉问答方法

本论文提出了一个可解释的多智能体协作框架，通过利用在广泛语料库上训练的大型语言模型中嵌入的知识，以人类认知为灵感，使用三个智能体，即探索者、回答者和整合者，进行自顶向下推理过程，从而明确地构建特定图像场景的多视图知识库，以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估，并通过全面的实验结果证明了其广泛的适用性和可解释性。

Nov, 2023

跨越语言、视觉和行动：多模态 VAEs 在机器人操作任务中的应用

我们关注机器人操作中无监督的视觉 - 语言 - 行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Apr, 2024

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

协作式视觉导航

提出一个用于多智能体视觉导航的大规模三维数据集 CollaVN，探索不同 MAVN 方法进行智能体的协作，用于弥补以往方法只关注格子世界或者游戏环境的不足，并采用记忆增强型通信框架提高多智能体合作效率和鲁棒性。

Jul, 2021

VisualWebArena: 在现实视觉网络任务中评估多模态代理

通过对多模态网络代理的性能进行评估，我们引入了 VisualWebArena，它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估，并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距。

Jan, 2024

3D-VLA：一个基于三维视觉 - 语言 - 动作的生成式世界模型

提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了 3D-VLA 在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019