学习将神经模块组合用于图像字幕生成
提出了一种基于依赖解析树的神经模块树网络(NMTree),该网络通过规范化视觉构图,并根据其语言特征计算视觉注意而分解视觉构图,从而实现可解释的组合视觉推理,并且使用Gumbel-Softmax逼近进行端对端训练,可以应对解析错误的影响。
Dec, 2018
利用多模态Transformer模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。
May, 2019
本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案,探索了自然语言的组成和顺序性,选择性地关注输入图像中每个检测到的对象的不同模块,以包括计数和颜色等特定描述,提出模型优于现有模型,结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。
Jul, 2020
使用图像和标题的联合信息进行预训练可提高图像表征能力,该方法通过 image-conditioned masked language modeling(ICMLM)任务来实现,训练出的表征能够成功应用于多种目标任务。
Aug, 2020
本研究提出了VisualGPT,一种数据高效的图像字幕模型,它利用了预先训练的语言模型中获得的语言知识,使用自重生编码器-解码器注意机制在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响,我们在MSCOCO和Conceptual Captions数据集上进行0.1%,0.5%和1%的训练,结果表明,我们在MS COCO上的CIDEr得分最好的基线模型高达10.8%,在Conceptual Captions上高达5.4%,并在医学报告生成数据集IU X-ray上取得了最新的结果。
Feb, 2021
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021
该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现,通过单一的线性变换,可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型,从而取得了与同时调整图像和文本的模型相同的指标。研究表明,语言模型的概念表示与以图像为基础的模型在结构上相似,甚至能够转移视觉信息。
Sep, 2022
本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法,其中包含四个编码器模块和一个解码器模块,并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性,实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。
Oct, 2022
本文提出在自我监督的证明性沟通目标情况下对预先训练的神经字幕系统进行微调,使其生成更详细的图像描述,并在 Conceptual Captions 数据集上进行验证。
Apr, 2023