基于细粒度用户注意力的文本到图像生成
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
提出一种基于自然语言描述生成图像的生成模型,采用微软 COCO 数据集进行训练,通过比较实验结果,证明该模型的生成图像质量更高且可以生成新颖的场景构图。
Nov, 2015
本论文提出了一种新的句子表示方法来减轻不一致问题,并引入了融合特征的新的鉴别器和扩展的空间注意力来提高图像质量和故事连贯性,实验表明,与现有方法相比,该方法具有优越的性能。
Aug, 2022
本文提出了一个统一的框架来综合地模拟图像、文本和人类注意力轨迹,并设计了两个任务,即视觉基础任务和图像生成任务。该模型架构同时训练于两个任务上,使用了本文设计的局部二分匹配距离度量方法来评估生成的轨迹的质量,并在完整实验中得出了模型优于基线的结论。此外,我们还证明了预训练的模型对 COCO 的引导图像字幕的下游任务也有积极的效果。
May, 2021
使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架,通过多个预训练的卷积神经网络作为编码器从图像中提取特征,并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成,我们的方法提高了性能,并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距,并可以扩展到特定领域。
Oct, 2023
本文提出了一种名为 LocTex 的计算机视觉方法,它利用了低成本的本地化文本标注和鼠标轨迹,通过对图像和标题的对比预训练和监督跨模态关注图,从而提供粗略的本地化信号,从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化,可以转移到各种下游视觉任务中,并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍,同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下,LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。
Aug, 2021
提出了一种基于场景控制、区域特征和转换器的文本生成图像方法,实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果,并实现了场景编辑、文本编辑和故事插图生成等新功能。
Mar, 2022
提出了一种从仅包含图像的数据集中生成图像特定的精细文本描述,并证明这些文本描述可以用于改进分类的方法 GIST,并通过在图像和生成的文本对上对视觉语言模型进行微调以学习对齐的视觉语言表示空间,从而在多个领域的四个不同领域的细粒度分类数据集上实现了 4.1% 的准确率提升,并在全样本和少样本情况下实现了类似的改进。
Jul, 2023
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
我们提出了一种新的多模态图像标注方法,称为定位叙述,将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像,我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证,具有高度准确性和生产效率,并且在受控图像字幕应用程序中具有实用性。
Dec, 2019