粗细注意力下的图像转标记生成

ICMLSep, 2016

Image-to-Markup Generation with Coarse-to-Fine Attention

Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush

TL;DR该研究提出一种神经编码解码模型，采用可扩展的粗 - 精细注意机制将图片转化为表现标记，并在图像到 LaTeX 生成的上下文中进行评估。该方法通过引入真实世界渲染的数学表达式与 LaTeX 标记相配对的新数据集，展示了与 CTC 模型相比采用基于注意的方法可以处理非标准 OCR 任务，并在域内渲染数据上远优于经典的数字 OCR 系统，在预训练的情况下，该方法也可以在域外手写数据上表现良好。为了减少与基于注意力的方法相关的推理复杂度，该研究还引入了一个选择支持区域后应用注意力的新的粗 - 精细注意力层。

Abstract

We present a neural encoder-decoder model to convert images into presentational markup based on a scalable coarse-to-fine attention mechanism. Our method is evaluated in the context of image-to-latex generation,

neural encoder-decoder scalable attention mechanism image-to-latex generation mathematical ocr coarse-to-fine attention layer

发现论文，激发创造

手写数学表达式识别的多尺度注意力与密集编码器

使用基于注意力机制的编码器 - 解码器模型和多尺度注意力模型，结合密集连接卷积网络来处理手写数学表达式识别并在 CROHME 竞赛任务中取得了显著结果，只使用了官方训练数据集。

Jan, 2018

双向训练 Transformer 的手写数学表达式识别

使用 transformer-based decoder 替换 RNN-based models，提出一种新的训练策略并采用数据增广方法，实验结果表明此模型提高了 CROHME 2014 数据集的 ExpRate 达到 2.23%，CROHME 2016 与 CROHME 2019 也分别提高了 1.92% 和 2.28%。

May, 2021

基于注意力机制的通过文字生成图片

提出一种基于自然语言描述生成图像的生成模型，采用微软 COCO 数据集进行训练，通过比较实验结果，证明该模型的生成图像质量更高且可以生成新颖的场景构图。

Nov, 2015

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架，通过多个预训练的卷积神经网络作为编码器从图像中提取特征，并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成，我们的方法提高了性能，并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距，并可以扩展到特定领域。

Oct, 2023

基于细粒度用户注意力的文本到图像生成

提出了基于 Local Narratives 数据集和 TReCS 模型的图像文本生成方法，在视觉的基础上，利用分割掩模等技术实现了更好的图像合成效果。

Nov, 2020

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022

AttnGAN: 使用注意力生成对抗网络进行精细化文本到图像生成

本文介绍了一种利用注意力机制生成对抗网络的方法，能够通过自然语言描述中的相关单词对图像的不同子区域进行精细的细节合成，并提出了一种深度的注意力多模式相似度模型，用于训练这个生成器。实验结果显示，在两个数据集上，这种注意力机制生成对抗网络都优于先前的最先进方法。

Nov, 2017

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

使用视觉注意力的神经图像字幕生成

该论文介绍了一种基于注意力机制的模型，通过机器翻译和物体检测实现图像内容的自动描述，通过最大化变分下界确定性训练该模型，并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。

Feb, 2015