文本多模态变压器自信心感知的非重复生成

AAAIDec, 2020

文本多模态变压器自信心感知的非重复生成

Confidence-aware Non-repetitive Multimodal Transformers for TextCaps

Zhaokai Wang, Renda Bao, Qi Wu, Si Liu

TL;DR本文提出了一种基于信心感知的非重复多模态 Transformer（CNMT）模型，通过优化 OCR 系统、加入置信度嵌入来选择关键词，并使用重复掩码在图片描述中避免重复，旨在提高文本阅读能力，避免预测重复单词，并在 TextCaps 数据集上取得了较好的表现，CIDEr 从 81.0 提高到 93.0。

Abstract

When describing an image, reading text in the visual scene is crucial to understand the key information. Recent work explores the textcaps task, i.e. image captioning with reading →

textcaps optical character recognition multimodal transformers repetition mask image captioning

发现论文，激发创造

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

漫画文本补全的多模态 Transformer

这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模型在易和难两种变种中提高了 10% 的效果。

Mar, 2024

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

MAT: 图像字幕的多模态注意力翻译器

通过序列到序列的循环神经网络模型，从图像中提取对象序列并引入顺序注意力层，将图像的顺序信息自然地转化为单词序列，在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。

Feb, 2017

简单并不容易：文本 VQA 和 TextCaps 的简单强基准

本篇论文提出了一种简单的关注机制，通过将 OCR 令牌特征分别发送到可视化和语言关注分支，并将它们发送到流行的 Transformer 解码器以生成答案或标题，从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现，并且在文本图像字幕方面超过了 TextCaps 挑战 2020 的获胜者

Dec, 2020

CapsFusion: 大规模重塑图像 - 文本数据

为了提供更高质量和更可扩展的多模态预训练数据，我们提出了 CapsFusion，一种先进的框架，利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明，CapsFusion 字幕在模型性能（例如，COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8％和 18.3％）、样本效率（比基准计算需求少 11-16 倍）、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。

Oct, 2023

CPTR: 图像标注的全变压器网络

本研究提出了 CaPtion TransformeR （简称 CPTR）这一基于序列到序列（sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同，本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模，并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性，本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。

Jan, 2021

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021