本文提出了一种用于自动生成图像描述的新方法:使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。
Nov, 2014
本研究提出一种结合图像分析方法和神经语言模型的方法,结合密集字幕技术和一组筛选器生成网络研讨会图像上下文信息,以生成高度可解释且聚焦于相关信息的描述,以应对视觉障碍个体面临的信息获取问题。
Feb, 2022
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
本文提出了一种质量不受限制的框架,通过数据增强、双网络架构和置信度校准,来提高视障人士图像字幕模型的性能和稳健性,并在与 Royal National Institute of Blind People 合作的辅助生活应用中实现了改进的模型。
Apr, 2023
提出了一种新的图像字幕生成方法,该方法能够利用无图像数据的文本数据,并使用区域图像特征生成有意义的二进制向量,从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量,并通过软关注机制对其进行解码。
Nov, 2016
本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法,以提高生成说明的多样性和准确性。
Apr, 2021
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023