TRINS：面向能够阅读的多模态语言模型

CVPRJun, 2024

TRINS：面向能够阅读的多模态语言模型

TRINS: Towards Multimodal Language Models that Can Read

Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu...

TL;DR通过引入 TRINS 数据集和 LaRA 模型，本研究提升了多模式大语言模型在理解图片中的文本内容方面的能力。TRINS 数据集包含了 39,153 个文本丰富的图片、图片描述和 102,437 个问题，并且较之相关数据集，TRINS 的每个标注的字数显著增加。实验结果表明，LaRA 模型在 TRINS 数据集和其他经典基准上表现出色，提高了对于文本丰富图片的理解和生成任务的效果。

Abstract

Large multimodal language models have shown remarkable proficiency in understanding and editing images. However, a majority of these visually-tuned models struggle to comprehend the textual content embedded in im

multimodal language models image understanding textual content dataset lara

发现论文，激发创造

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

LLaVAR: 文本丰富图像理解增强可视化指导调整

本研究提出了 LLaVAR 模型，是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的，该模型显着提高了模型在基于文本的 VQA 数据集上的性能，并通过定性分析展示了与人类交互的潜力。

Jun, 2023

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

LANISTR：来自结构化和非结构化数据的多模态学习

LANISTR 是一种基于注意力机制的框架，能够学习语言、图像和结构化数据，并通过一种基于相似度的多模态掩蔽损失函数来学习大规模多模态数据中跨模态的关系。在两个具有挑战性的公开数据集 MIMIC-IV 和 Amazon 产品评论上，与现有的多模态模型相比，LANISTR 的绝对改进分别为 6.47％（AUROC）和高达 17.69％（准确性），同时显示出更出色的泛化能力。

May, 2023

LAION-400M：CLIP 过滤的 4 亿张图文对开放数据集

这篇文章介绍了一个公共的数据集 LAION-400M，包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引，能用于训练多模式语言视觉模型，进行零样本或少样本学习和迁移。

Nov, 2021

大规模双语言 - 图像对比学习

本文介绍了利用 11 亿的图文对数据（7.08 亿的韩语数据和 4.76 亿的英语数据）训练出的一种名为 KELIP 的韩 - 英双语多模态模型的简单而有效的训练方案，并证明了该模型在两种语言中的性能相当竞争力，同时讨论了一些与多模态相关的研究问题。

Mar, 2022

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势，规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

Mar, 2021

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

多轮交替多模态指令跟随

介绍了 TextBind，这是一个几乎无需标注的框架，可以为较大的语言模型赋予多轮交错的多模态指令跟随能力，通过仅使用图像 - 标题对生成多轮多模态指令 - 回应对话，从而旨在推动多模态指令跟随领域的未来研究。

Sep, 2023