VIAssist:为视觉障碍用户适应多模态大型语言模型
自动化帮助视障人士处理日常活动的目标是通过计算机视觉和自然语言处理的发展实现的,使用大型模型,通过大规模研究调查了大型模型在视障辅助方面的潜力和限制,结果显示,虽然大型模型可以增强视障辅助功能,但其输出无法很好地与现实接轨并且缺乏细致的指导。
Jan, 2024
多模态语言生成领域中,我们引入了 VLIS,这是一个新的框架,将视觉语言模型的视觉调节能力与纯文本语言模型的语言理解相结合,通过提取图像和文本之间的点对互信息,并将其作为重要性抽样权重来调整基于文本的模型的标记生成概率,从而在共识理解和复杂文本生成任务上提升了视觉语言模型的性能。VLIS 代表了多模态语言生成的一个有前途的新方向。
Oct, 2023
本文介绍了一个名为 MERLIM 的多模式评估基准,用于评估 IT-LVLM 在基本计算机视觉任务中的表现,发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。
Dec, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了 MLLMs 的视觉感知能力。
Jan, 2024
提出了一种名为 Veagle 的新方法,通过在现有模型中增强多模态能力,利用动态机制将编码的视觉信息直接投射到语言模型中,从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。
Jan, 2024
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023
本文提出了一种创新的方法,利用大型视觉语言模型增强盲人和视力低下人士的视觉感知,提供周围环境的详细综合描述并警示潜在风险。该方法通过整合图像识别结果和用户查询,使用大型视觉语言模型根据提示生成环境的详细描述,并通过分析环境对象和场景来识别潜在风险。实验结果表明该方法能够准确识别对象并为盲人和视力低下人士提供深入的环境描述和分析。
Oct, 2023
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
通过识别关键组件和创建具有受限推理成本的高效模型,重新定义了视觉语言模型的设计,以实现推理吞吐量的显著提高,并保持高性能。
Jun, 2024