BlenderAlchemy：使用视觉语言模型编辑 3D 图形

Apr, 2024

BlenderAlchemy：使用视觉语言模型编辑 3D 图形

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models

Ian Huang, Guandao Yang, Leonidas Guibas

TL;DR通过利用 Vision-Language Models（像 GPT-4V）智能地搜索设计动作空间，我们提出了一个系统，以满足用户意图的目标，结合了图像生成模型（image-generation models）的 “想象” 参考图像，为抽象语言描述提供视觉基础。该系统在编辑程序材料和 / 或参考图像，以及在复杂场景中调整产品渲染的照明配置等任务中，能够生成简单但繁琐的 Blender 编辑序列。

Abstract

graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material n

graphics design vision-language models gpt-4v visual reasoning blender editing sequences

发现论文，激发创造

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

VR-GPT：智能虚拟现实应用的视觉语言模型

本研究介绍了一种创新方法，利用 VR 环境中的 VLMs（Visual Language Models）来增强用户交互和任务效率，通过自然语言处理实现实时、直观的用户交互，不依赖于视觉文本指令。使用语音识别和文本转语音技术，使用户与 VLM 之间实现无缝通信，有效地引导用户完成复杂任务。初步实验结果显示，使用 VLMs 不仅能够缩短任务完成时间，还能提高用户舒适度和任务参与度，相较于传统的 VR 交互方法。

May, 2024

3D-VLA：一个基于三维视觉 - 语言 - 动作的生成式世界模型

提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了 3D-VLA 在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

MiniGPT - 反设计：利用 MiniGPT-4 预测图像调整

通过将视觉 - 语言模型（VLMs）与大型语言模型（LLMs）集成，近期已取得重要进展。本文扩展和优化了 MiniGPT-4 以进行逆向设计任务，并且实验证明了通用的 VLMs（特别是 MiniGPT-4）在复杂任务（如逆向设计）方面的可扩展性。

Jun, 2024

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

从概念到制造：评估用于工程设计的视觉语言模型

利用 GPT-4V 模型进行了一项广泛评估，涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务，在分析中发现了该模型在处理复杂设计和制造挑战方面的能力，并确定了其在复杂工程设计应用中的局限性。

Nov, 2023

Dr-LLaVA：基于符号临床基础的视觉指导优化

我们提出了一种新的对齐算法，利用临床推理的符号化表示来将视觉语言模型 (VLMs) 与医学知识联系起来，从而生成与临床推理和诊断路径一致的多轮对话，并在多轮医学对话中展示出强大的性能。

May, 2024

学习想象力：视觉增强的自然语言生成

该论文提出一种名为 LIVE 的方法，利用预训练语言模型和图像生成模型相结合，使得模型可以像人一样通过想象场景帮助写作，该方法通过融合层实现了图像和文本的结合，并使用 CLIP 来确定文本能否调起想象力，实验表明该方法的有效性。

May, 2023

ScreenAgent：基于视觉语言模型的计算机控制代理

本文构建了一个用于视觉语言模型（VLM）代理与真实计算机屏幕交互的环境，在该环境中，代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面（GUI）。我们还设计了一个自动控制流程，包括规划、执行和反思阶段，指导代理不断与环境交互并完成多步骤任务。此外，我们构建了 ScreenAgent 数据集，收集完成多种日常计算机任务时的屏幕截图和动作序列。最后，我们训练了一个名为 ScreenAgent 的模型，其实现了与 GPT-4V 相媲美的计算机控制能力，并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。

Feb, 2024