自我想象：使用多模态模型进行高效单模态推理

Jan, 2024

自我想象：使用多模态模型进行高效单模态推理

Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination

Syeda Nahida Akter, Aman Madaan, Sangwu Lee, Yiming Yang, Eric Nyberg

TL;DR使用 Vision-Language Models 和 HTML 生成结构化问题的图像化表示，并使用相同的 Vision-Language Model 回答问题。该方法在数学任务和推理任务中提高了性能。

Abstract

The potential of vision-language models (\textsc{vlm}s) often remains underutilized in handling complex text-based problems, particularly when these problems could benefit from visual representation. Resonating with humans' ability to solve complex text-based problems by (1) creating a

vision-language models self-imagine html mathematics tasks reasoning tasks

发现论文，激发创造

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

通过学习内心独白解决视觉语言任务

通过模拟内心独白过程，我们提出了一种新颖的 Inner Monologue Multi-Modal Optimization (IMMO) 方法来解决复杂的视觉语言问题，通过自问自答的自然语言对话过程，增强了推理和解释能力，为视觉和语言模型的有效融合做出了贡献。

Aug, 2023

通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024

学习想象力：视觉增强的自然语言生成

该论文提出一种名为 LIVE 的方法，利用预训练语言模型和图像生成模型相结合，使得模型可以像人一样通过想象场景帮助写作，该方法通过融合层实现了图像和文本的结合，并使用 CLIP 来确定文本能否调起想象力，实验表明该方法的有效性。

May, 2023

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

图像文本生成的进展 —— 以自我合理化为案例研究

探索多模态模型在联合图像和文本生成任务中的表现，并发现单一模型类型不能通用地在所有任务、数据集和微调数据大小上表现最佳，加深了对从图像和文本生成超越图像字幕的新型通用骨干方法的需求。

May, 2022

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023