本论文中,我们研究了一种基于 kNN 记忆的图像字幕生成方法,其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明,采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。
Jul, 2022
通过利用外部的 kNN 内存来改善生成过程,本研究提出了两个模型变体,这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法,证明了显式外部存储器的纳入可以显著提高标题的质量,尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。
May, 2024
我们提出了 ViECap,一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下,ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域(可转移)字幕生成方面的最新水平,并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。
Jul, 2023
提出了一种新的图像字幕生成方法,该方法能够利用无图像数据的文本数据,并使用区域图像特征生成有意义的二进制向量,从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量,并通过软关注机制对其进行解码。
Nov, 2016
该研究介绍了一种基于大型语言模型的图像字幕生成方法,利用外部可视 - 名称记忆检索并提供对象名称,从而更新对象知识记忆,实现对未知对象的理解,并在各种基准测试中展现出优越性能。
Nov, 2023
本研究提出了一种基于 Flamingo 模型的 Retrieval-augmented Visual Language Model(Re-ViLM), 支持检索外部数据库的相关知识,减少模型参数数量,适应新数据评估。研究表明,Re-ViLM 显著提高了图像到文本生成任务的性能,在没有领域内数据和少量领域内数据的情况下,参数数量是基线方法的四倍。
Feb, 2023
提出了一种新的策略 “基于 LPM 和检索增强学习” 来训练图像说明器,该策略利用大型预训练模型(LPM)的先验知识作为监督,并通过检索过程来进一步增强其有效性,在不使用昂贵的预训练过程的情况下,超越了目前最先进的预训练模型,并通过使用生成的伪句子作为弱监督来提高 1%半监督图像说明基准的性能。
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
Apr, 2024
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022