VR-GPT：智能虚拟现实应用的视觉语言模型

May, 2024

VR-GPT：智能虚拟现实应用的视觉语言模型

VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications

Mikhail Konenkov, Artem Lykov, Daria Trinitatova, Dzmitry Tsetserukou

TL;DR本研究介绍了一种创新方法，利用 VR 环境中的 VLMs（Visual Language Models）来增强用户交互和任务效率，通过自然语言处理实现实时、直观的用户交互，不依赖于视觉文本指令。使用语音识别和文本转语音技术，使用户与 VLM 之间实现无缝通信，有效地引导用户完成复杂任务。初步实验结果显示，使用 VLMs 不仅能够缩短任务完成时间，还能提高用户舒适度和任务参与度，相较于传统的 VR 交互方法。

Abstract

The advent of immersive virtual reality applications has transformed various domains, yet their integration with advanced artificial intelligence technologies like visual language models remains underexplored. Th

immersive virtual reality visual language models user interaction task efficiency natural language processing

发现论文，激发创造

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

Voice2Action: 語言模型在虛擬現實中作為高效實時互動的代理

使用 Voice2Action 框架，在虚拟现实环境中通过分析声音信号和文本命令，进行分级处理和执行任务，以提高效率。

Sep, 2023

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

GameVLM：基于视觉语言模型和零和博弈的机器人任务规划决策框架

该研究介绍了一个多智能体框架 (GameVLM)，使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程，通过引入零和博弈理论来解决不同智能体之间的一致性问题，并得出最优解，实验证明该框架具有 83.3% 的平均成功率。

May, 2024

训练一种视觉语言模型作为智能手机助手

利用大型语言模型和视觉语言模型，我们的研究致力于解决数字助理执行各种用户任务的挑战，特别是在基于指令的移动设备控制领域。通过与用户界面进行交互，我们的模型利用设备屏幕的视觉输入并模拟人类般的交互，包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是，我们的模型不仅仅操作单个屏幕图像，还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。

Apr, 2024

BlenderAlchemy：使用视觉语言模型编辑 3D 图形

通过利用 Vision-Language Models（像 GPT-4V）智能地搜索设计动作空间，我们提出了一个系统，以满足用户意图的目标，结合了图像生成模型（image-generation models）的 “想象” 参考图像，为抽象语言描述提供视觉基础。该系统在编辑程序材料和 / 或参考图像，以及在复杂场景中调整产品渲染的照明配置等任务中，能够生成简单但繁琐的 Blender 编辑序列。

Apr, 2024

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023