基于细粒度用户注意力的文本到图像生成

Nov, 2020

基于细粒度用户注意力的文本到图像生成

Text-to-Image Generation Grounded by Fine-Grained User Attention

Jing Yu Koh, Jason Baldridge, Honglak Lee, Yinfei Yang

TL;DR提出了基于 Local Narratives 数据集和 TReCS 模型的图像文本生成方法，在视觉的基础上，利用分割掩模等技术实现了更好的图像合成效果。

Abstract

localized narratives is a dataset with detailed natural language descriptions of images paired with mouse traces that provide a sparse, fine-grained visual grounding for phrases. We propose TReCS, a sequential model

localized narratives visual grounding sequential model segmentation masks text-to-image generation

发现论文，激发创造

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

基于注意力机制的通过文字生成图片

提出一种基于自然语言描述生成图像的生成模型，采用微软 COCO 数据集进行训练，通过比较实验结果，证明该模型的生成图像质量更高且可以生成新颖的场景构图。

Nov, 2015

词级细粒度故事可视化

本论文提出了一种新的句子表示方法来减轻不一致问题，并引入了融合特征的新的鉴别器和扩展的空间注意力来提高图像质量和故事连贯性，实验表明，与现有方法相比，该方法具有优越的性能。

Aug, 2022

通过建模人类注意力轨迹将说话与注视位置联系起来

本文提出了一个统一的框架来综合地模拟图像、文本和人类注意力轨迹，并设计了两个任务，即视觉基础任务和图像生成任务。该模型架构同时训练于两个任务上，使用了本文设计的局部二分匹配距离度量方法来评估生成的轨迹的质量，并在完整实验中得出了模型优于基线的结论。此外，我们还证明了预训练的模型对 COCO 的引导图像字幕的下游任务也有积极的效果。

May, 2021

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架，通过多个预训练的卷积神经网络作为编码器从图像中提取特征，并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成，我们的方法提高了性能，并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距，并可以扩展到特定领域。

Oct, 2023

LocTex: 从本地文本监督中学习数据高效视觉表征

本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Aug, 2021

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

生成图像特定文本改进细粒度图像分类

提出了一种从仅包含图像的数据集中生成图像特定的精细文本描述，并证明这些文本描述可以用于改进分类的方法 GIST，并通过在图像和生成的文本对上对视觉语言模型进行微调以学习对齐的视觉语言表示空间，从而在多个领域的四个不同领域的细粒度分类数据集上实现了 4.1% 的准确率提升，并在全样本和少样本情况下实现了类似的改进。

Jul, 2023

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

连接视觉和语言的局部叙述

我们提出了一种新的多模态图像标注方法，称为定位叙述，将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像，我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证，具有高度准确性和生产效率，并且在受控图像字幕应用程序中具有实用性。

Dec, 2019