Ferret-v2:针对较大语言模型进行指代和依存关系的改进基准
Ferret-UI 是一种专门用于增强对移动用户界面(UI)屏幕理解的多模态大型语言模型(MLLM),它具备指代、基础和推理能力,并在学习样本、编码和任务执行方面表现出色。
Apr, 2024
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.
Mar, 2024
本次研究提出了一个基于 transformer 架构的单阶段多任务模型,通过融合视觉和语言输入,实现了高度语义转换的视觉语言解析,通过上下文信息和多任务学习,该模型在包括命名实体识别等任务上,取得了比现有方法更加突出的性能优势。
Jun, 2021
基于大规模视觉语言模型的对象感知与定位能力,我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon,该模型在细粒度的 RefCOCO 系列上达到了最先进的性能,并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。
Nov, 2023
该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案 - free 方法。
May, 2021
通过细粒度的奖励建模,ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果,该方法使用较便宜的人工评估和自动化方法,有效地减少了视觉输入的不准确性问题,并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。
Feb, 2024
ClawMachine 是一种新的方法,通过直接使用视觉令牌来编码实体,统一了视觉引用和定位的自动回归格式,并通过仅有解码器的架构进行学习,实现了对视觉引用和定位任务的竞争性表现,并减少了对训练数据的需求。此外,ClawMachine 展示了在复杂视觉推理方面整合多源信息的本地能力,这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。
Jun, 2024
最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。
Feb, 2024
使用大型语言模型作为代理,FineR 在语义细分类别推理方面体现出更好性能,优于几种先进的 FGVR 和语音与视觉助手模型,并展示了在野外和新领域中工作的潜力。
Jan, 2024