文本多模态变压器自信心感知的非重复生成
利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。
May, 2019
这项研究通过引入一种新颖的多模态大型语言模型(Multimodal-LLM)架构,特别设计用于文字片断选择的闭合任务(Text-cloze),并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整,以达到比现有最先进模型在易和难两种变种中提高了 10% 的效果。
Mar, 2024
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
通过序列到序列的循环神经网络模型,从图像中提取对象序列并引入顺序注意力层,将图像的顺序信息自然地转化为单词序列,在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。
Feb, 2017
本篇论文提出了一种简单的关注机制,通过将 OCR 令牌特征分别发送到可视化和语言关注分支,并将它们发送到流行的 Transformer 解码器以生成答案或标题,从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现,并且在文本图像字幕方面超过了 TextCaps 挑战 2020 的获胜者
Dec, 2020
为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。
Oct, 2023
本研究提出了 CaPtion TransformeR (简称 CPTR)这一基于序列到序列(sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同,本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模,并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性,本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。
Jan, 2021
本文提出了一种全新的视觉变换器(Vision transformer-based)图像标题模型 ViTCAP,使用网格表示而不提取区域特征。为了提高性能,引入了基于 Vision Transformer 的概念令牌网络(CTN),可以高效地预测语义概念,并将其整合到端到端的标题生成中,从而实现竞争性能,同时简化了结构。
Dec, 2021