LAVIS: 用于语言-视觉智能的库
文章研究了在视觉 -语言 (VL) 任务中如何处理语言和视觉特征,提出了一些对于语言发挥更大作用的最佳实践,包括使用平均嵌入语言模型,进行多任务训练以及采用图形导向的视觉 -语言嵌入模型(GrOVLE)来整合语言特征。
Aug, 2019
本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息,解决了在有限样本时视觉-语言任务的问题,使输出更易于解释。
May, 2023
本文介绍了一个 LVLM-eHub综合评估平台,使用6种多模态能力定量评估47个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的LVLM评估流水线提供了启示。
Jun, 2023
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为LLM可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像-文本语料库上预训练的LaVIT具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此https URL上提供。
Sep, 2023
DeepSeek-VL是一个开源的视觉-语言模型,设计用于实际的视觉和语言理解应用,通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。
Mar, 2024
本文介绍了一种语言仓库(LangRepo),用于长文本视频理解,通过维护简明有结构信息作为可解释的(即全文本)表示。该仓库基于多尺度视频块进行迭代更新,并引入了专注于修剪文本中的冗余信息和在各个时间尺度提取信息的写入和读取操作。该提出的框架在包括EgoSchema、NExT-QA、IntentQA和NExT-GQA等无监督视觉问答基准测试上进行评估,表现出最新最好的性能。我们的代码可在此链接获得:https://此链接。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
该研究论文提出了一种名为LM4LV的框架,它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务,展示了LLM在低层次视觉中的强大潜力,并且架起了MLLM和低层次视觉任务之间的桥梁。
May, 2024
通过新的基准测试VLind-Bench,本研究评估和分析了近期的大型视觉语言模型(LVLMs),发现几乎所有模型都过度依赖于语言先验,这对该领域构成了巨大挑战。
Jun, 2024