VIAssist：为视觉障碍用户适应多模态大型语言模型

Apr, 2024

VIAssist：为视觉障碍用户适应多模态大型语言模型

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments

Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan

TL;DR本研究探讨如何利用多模态大型语言模型（MLLMs）帮助视觉障碍（VI）人士提供视觉问题的答案，并介绍了 VIAssist，一种能够识别不受欢迎图像并提供详细操作建议，并基于这些图像提供可靠答案给用户的方法。实验结果表明，VIAssist 相对于基准方法，在 BERT 得分和 ROUGE 得分上分别提高了 0.21 和 0.31。

Abstract

Individuals with visual impairments, encompassing both partial and total difficulties in visual perception, are referred to as visually impaired (VI) people. An estimated 2.2 billion individuals worldwide are affected by visual impairments. Recent advancements in →

visual impairments multi-modal large language models vi individuals mllms viassist

发现论文，激发创造

VIALM: 视力障碍者辅助的大模型调查和基准

自动化帮助视障人士处理日常活动的目标是通过计算机视觉和自然语言处理的发展实现的，使用大型模型，通过大规模研究调查了大型模型在视障辅助方面的潜力和限制，结果显示，虽然大型模型可以增强视障辅助功能，但其输出无法很好地与现实接轨并且缺乏细致的指导。

Jan, 2024

VLIS: 单模态语言模型指导多模态语言生成

多模态语言生成领域中，我们引入了 VLIS，这是一个新的框架，将视觉语言模型的视觉调节能力与纯文本语言模型的语言理解相结合，通过提取图像和文本之间的点对互信息，并将其作为重要性抽样权重来调整基于文本的模型的标记生成概率，从而在共识理解和复杂文本生成任务上提升了视觉语言模型的性能。VLIS 代表了多模态语言生成的一个有前途的新方向。

Oct, 2023

魔法后的 MERLIM: 大型图像 - 语言模型的多模态评估基准

本文介绍了一个名为 MERLIM 的多模式评估基准，用于评估 IT-LVLM 在基本计算机视觉任务中的表现，发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念，对象幻觉在各种任务中普遍存在，而且结果受输入查询的细微变化的强烈偏见影响，即使查询具有相同的语义。研究结果还表明，这些模型在视觉基础上较弱，但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。

Dec, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

VisPercep：一种增强视觉感知能力的视觉语言方法（面向盲人和视力障碍人群）

本文提出了一种创新的方法，利用大型视觉语言模型增强盲人和视力低下人士的视觉感知，提供周围环境的详细综合描述并警示潜在风险。该方法通过整合图像识别结果和用户查询，使用大型视觉语言模型根据提示生成环境的详细描述，并通过分析环境对象和场景来识别潜在风险。实验结果表明该方法能够准确识别对象并为盲人和视力低下人士提供深入的环境描述和分析。

Oct, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

语言与视觉助手在视觉环境下的高效自然语言理解：阅读和推理中哪些是重要的

通过识别关键组件和创建具有受限推理成本的高效模型，重新定义了视觉语言模型的设计，以实现推理吞吐量的显著提高，并保持高性能。

Jun, 2024