从全网图片 - 文本数据中检索来提高图像识别
本论文中,我们研究了一种基于 kNN 记忆的图像字幕生成方法,其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明,采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。
Jul, 2022
通过利用外部的 kNN 内存来改善生成过程,本研究提出了两个模型变体,这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法,证明了显式外部存储器的纳入可以显著提高标题的质量,尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。
May, 2024
本文提出一种迭代匹配循环注意力存储(IMRAM)的方法,用于捕捉图像和文本之间的细粒度对应关系,表现出了最先进的性能。
Mar, 2020
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
使用 NLP 和多模式学习,该论文介绍了如何通过搜索引擎检索来增强预训练模型,从而在测试时从互联网中检索到有用的数据,并更新模型以解决模型的不确定性,取得了零样本性能的显著改进。
Nov, 2023
本文提出了一个基于注意力机制的自然语言人物检索系统,并成功应用于监控视频检索领域中,该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征,并利用 BLSTM 模型进行文本特征提取,将其融合后进行得分,可以更加精确地检索到所需的目标。
May, 2017
本研究提出一种基于抽象记忆的架构,利用机器标注数据,通过查询外部记忆库中与查询问题视觉相似的数据,并将有用的信息写入到抽象记忆中,最终实现了对新领域物体的准确识别。
Dec, 2016
文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。
Aug, 2018
通过利用 Web 和 Social Media 数据,本文提出一种利用多模态图像和文本嵌入的自监督学习方法,在不需要人工注释的情况下学习强大的特征,并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法,表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能,且在训练目标数据时优于最先进方法。最后,介绍了 InstaCities1M 数据集,并演示了如何利用该数据集进行语义多模态图像检索。
Jan, 2019
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
Jul, 2022