StrucTexTv3：一个高效的视觉语言模型，适用于文本丰富的图像感知、理解和更多

May, 2024

StrucTexTv3：一个高效的视觉语言模型，适用于文本丰富的图像感知、理解和更多

StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond

Pengyuan Lyu, Yulin Li, Hao Zhou, Weihong Ma, Xingyu Wan...

TL;DRStrucTexTv3 是一种高效的视觉语言模型，通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器，结合指令学习提高感知与理解能力，并使用 TIM-30M 来提升模型的鲁棒性，实现了领先的文本丰富图像感知任务和理解任务的结果，展现了广泛应用的巨大潜力。

Abstract

text-rich images have significant and extensive value, deeply integrated into various aspects of human life. Notably, both visual cues and linguistic symbols in text-rich images play crucial roles in information

text-rich images vision-language models multi-scale reduced visual transformer instruction learning tim-30m

发现论文，激发创造

StrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练

本文提出了一种名为 StrucTexTv2 的有效的文档图像预训练框架，通过执行掩码视觉 - 文本预测。它由两个自我监督的预训练任务组成：掩码图像建模和掩码语言建模，基于文本区域级别的图像掩码。经实验验证，该模型在文档图像理解的各个下游任务中均取得了具有竞争力甚至是最新的最佳性能。

Mar, 2023

StrucTexT: 多模态 Transformer 的结构化文本理解

本文提出一种名为 StrucTexT 的统一框架，该框架使用 transformer 构建了一个段 - 标记对齐的编码器来处理文档上下文中不同层面的实体标记和链接任务，并使用三个自监督任务设计了一种新颖的预训练策略，以有效地提取多模态信息，从而优于 FUNSD，SROIE 和 EPHOIE 数据集的现有方法。

Aug, 2021

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

Fast-StrucTexT：一种具有模态引导动态令牌合并的高效沙漏变压器模型，用于文档理解

提出了 Fast-StrucTexT，这是一种基于 StrucTexT 算法的高效多模态框架，并使用沙漏变压器结构进行视觉文档理解，具有较高的性能和效率，可表示多粒度表示。SCA 与动态令牌合并块一起使用，以实现文档布局表示的平衡，以获得与现有技术相比 1.9 倍的快速推理时间。

May, 2023

TVLT: 无文本的视觉语言变换器

该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT)，采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息，用 mask-autoencoding 和对比建模实现视频与音频的对齐，并在视觉问答、图片检索、视频检索以及多模态情感分析等多项任务中取得与有文本模块模型相当的表现，推测从低层视觉和音频信号中学习紧凑高效的视语表示的可能性。

Sep, 2022

VEGA：学习视觉语言大模型中交错的图像文本理解

通过引入新的任务 Interleaved Image-Text Comprehension (IITC) 及其相关的 VEGA 数据集和 Image-Text Association（ITA）子任务，我们在多模态大模型（MLLMs）上建立了一个坚实的基线，实现了 85.8％的图像关联准确率和 0.508 的 Rouge 分数，结果验证了我们的数据集在提高 MLLMs 对复杂图文理解能力方面的有效性。

Jun, 2024

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017

TexIm FAST: 基于 Transformers 的文本 - 图像表示用于语义相似度评估

通过自监督变分自动编码器 (VAE) 以及转换器应用的 TexIm FAST 方法提出了一种新的文本到图像方法，可以生成固定长度的表示，消耗内存减少了 75％，有效地用于下游任务，并且在语义文本相似性方面取得了显著改进。

Jun, 2024

高效的令牌引导下的图像文本检索与一致多模态对比性训练

本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架，将粗粒度和细粒度表示学习结合到一个统一的框架中，并提出了一种名为同步多模态对比损失的新型训练目标，通过混合全局和本地跨模态相似性的两个阶段的推理方法，实现了与代表性最新方法相比极低的推理时间下，实现了最先进的检索表现。

Jun, 2023

使用单个视觉模型进行场景文本识别

本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和 / 或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Apr, 2022