LAVIS: 用于语言-视觉智能的库

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为LLM可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像-文本语料库上预训练的LaVIT具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此https URL上提供。

Sep, 2023

DeepSeek-VL: 实现真实世界的视觉-语言理解

DeepSeek-VL是一个开源的视觉-语言模型，设计用于实际的视觉和语言理解应用，通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。

Mar, 2024

长视频理解语言库

本文介绍了一种语言仓库(LangRepo)，用于长文本视频理解，通过维护简明有结构信息作为可解释的（即全文本）表示。该仓库基于多尺度视频块进行迭代更新，并引入了专注于修剪文本中的冗余信息和在各个时间尺度提取信息的写入和读取操作。该提出的框架在包括EgoSchema、NExT-QA、IntentQA和NExT-GQA等无监督视觉问答基准测试上进行评估，表现出最新最好的性能。我们的代码可在此链接获得：https://此链接。

Mar, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

LM4LV：一个用于低级图像任务的冻结大型语言模型

该研究论文提出了一种名为LM4LV的框架，它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务，展示了LLM在低层次视觉中的强大潜力，并且架起了MLLM和低层次视觉任务之间的桥梁。

May, 2024

VLind-Bench：大型视觉-语言模型中的语言先验测量

通过新的基准测试VLind-Bench，本研究评估和分析了近期的大型视觉语言模型(LVLMs)，发现几乎所有模型都过度依赖于语言先验，这对该领域构成了巨大挑战。

Jun, 2024