TAP: 面向 Text-VQA 和 Text-Caption 的文本感知预训练

Dec, 2020

TAP: 面向 Text-VQA 和 Text-Caption 的文本感知预训练

TAP: Text-Aware Pre-training for Text-VQA and Text-Caption

Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio...

TL;DR本文提出了一种名为 TAP 的方法，通过使用光学字符识别引擎生成的图像文字来预训练模型，从而帮助模型在三种模态 —— 文本单词、视觉对象和场景文本中学习更好的对齐表示，在多个任务上均表现出卓越的性能。

Abstract

In this paper, we propose text-aware pre-training (TAP) for text-vqa and text-caption tasks. These two tasks aim at reading and understand

text-aware pre-training text-vqa text-caption scene text image-text

发现论文，激发创造

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Mar, 2022

面向检测的图像 - 文本预训练的开放词汇测量

基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像 - 文本对中学习，我们的方法能够利用对比损失学习到新出现的对象 - 语义线索，在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

面向文本视觉问答的定位感知答案预测

本文提出了一种基于局部信息的答案预测网络，即 LaAP-Net，用于解决现有基于光学字符识别（OCR）或固定词汇的文本 VQA 系统中的局限性，其中定位信息得到了更好的利用。此外，提出了一种多模式融合技术，即 COR，为定位任务提供了额外的上下文信息。LaAP-Net 在三个基准数据集上的表现比现有方法都要好。

Oct, 2020

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

通过预训练实现弱监督的表格解析

TAPAS 是一种用于表格上回答自然语言问题的模型，它使用弱监督训练，不需要生成逻辑式，而是通过对表格中的单元格进行选择并可选择性地应用相应的聚合算子来预测表格的结果，并在三个语义分析数据集上取得了优异成绩。

Apr, 2020

基于问题控制的文本感知图像描述

本研究提出了一种新的受控图像文本生成任务 Qc-TextCap，并通过设计问题控制模型（GQAM）达到比现有模型更好的文本生成性能和问题答案能力，同时构建了两个数据集（ControlTextCaps 和 ControlVizWiz），提高了多样化和信息性。

Aug, 2021

M2-RAAP：一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性

我们提出了一种名为 M2-RAAP 的多模态配方，用于推进基于适应性预训练的零 - shot 视频文本检索，具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究，我们总结了这项实证研究成果，其中我们的技术贡献包括数据过滤和文本重写流水线、将视频输入改为关键帧以加速预训练、以及辅助字幕引导策略来增强视频特征。通过在两种不同语言的优化视频文本数据集上将三种图像 - 文本基础模型进行适配，进行了大量实验验证了 M2-RAAP 在基于适应性预训练方面的鲁棒性和可重现性。结果表明，M2-RAAP 在显著减少数据量（-90%）和时间消耗（-95%）的同时，取得了优越的性能，为四个英文和两个中文零 - shot 检索数据集建立了新的 SOTA。我们正在准备我们的优化双语数据注释和代码库，将在该 URL 上提供。

Jan, 2024

生成式表格预训练加强了表格预测模型

该论文提出了 TapTap，利用表格预训练生成高质量的合成表格，支持各种基于表格数据的应用，通过广泛的实验验证其在 12 个数据集上的性能大大优于 16 种基线，并可轻松与各种基础模型相结合，是合成表格数据生成发展中的一个里程碑。

May, 2023

TAPS3D：基于伪监督的文本引导的三维纹理形状生成

该论文提出了一种使用伪字幕训练文本引导的 3D 形状生成器的方法，通过采用低级别的图像正则化，进一步增加几何多样性，可以从给定的文本生成 3D 纹理形状，并且对模型进行了大量的实验分析。

Mar, 2023

文本分类任务自适应预训练的简单高效方法

该文章研究了在 TAPT 过程中只训练 BERT 模型的嵌入层对模型性能的影响，并提出了一种简单的方法来使 BERT 模型在中间步骤更加高效，该方法是培训 BERT 模型的嵌入层，可以适应目标领域的词汇并达到可比较的性能。

Sep, 2022