使用自然语言查询进行交互式检索复杂场景的逐层钻取

Nov, 2019

使用自然语言查询进行交互式检索复杂场景的逐层钻取

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng...

TL;DR本文提出了 Drill-down，该方法可以使用自然语言进行交互式图像检索，能够在包含多个对象的复杂图像场景中有效地使用多轮查询和弱监督，这种方法展现了优越的表现。

Abstract

This paper explores the task of interactive image retrieval using natural language queries, where a user progressively provides input queries to refine a set of retrieval results. Moreover, our work explores this problem in the context of →

interactive image retrieval natural language queries drill-down complex image scenes weak supervision

发现论文，激发创造

基于对话的交互式图像检索

介绍了一种新的交互式图像检索方法，该方法允许用户通过自然语言提供反馈，形成了一个基于强化学习的对话系统，用于提高目标图像的排名，该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。

May, 2018

基于场景图的图像检索 -- CLEVR 数据集的案例研究

本研究论文提出了基于神经符号方法，利用场景图像来进行文本图像检索的解决方案，并训练了一种可学习的图匹配算法来实现检索任务，并实现了一个基于交互式问答的迭代检索框架。

Nov, 2019

语言辅助下的场景检索：我在哪里？

使用自然语言接口和语境 AI 的研究，探索以自然语言查询来识别 3D 场景图的场景检索方法，并介绍了 Text2SceneGraphMatcher 的学习框架和数据集。

Apr, 2024

自然语言对象检索

本文提出了一种基于 SCRC 模型来实现自然语言对象检索的方法，利用空间配置和全局场景级上下文信息对网络进行评分，通过循环网络处理查询文本、本地图像描述符、空间配置以及全局上下文特征来输出概率，实现了从图像标题到任务的视觉语言知识的转移，实验结果表明我们的模型有效地利用了局部和全局信息，在不同数据集和场景中显著优于先前的基准方法，并可以利用大规模的视觉和语言数据集进行知识转移。

Nov, 2015

Ask&Confirm：基于部分查询的跨模态检索主动详细信息丰富

本论文提出了一种针对图像检索中存在的信息不完整问题的解决框架 —— 基于 Ask-and-Confirm 策略的交互式检索方法，通过基于强化学习的学习策略和弱监督训练方法，大幅提高了基于文本的图像检索性能。

Mar, 2021

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

利用场景图的结构化基于查询的图像检索

该论文介绍了一种基于场景图嵌入的方法，将视觉关系作为结构化查询用于图像检索，其在低频率对象检索上效果显著。

May, 2020

检索增强减少对话中的幻觉

本文研究了基于神经检索的循环架构在知识驱动的对话中的应用，将多个组件（检索器、排名器和编码器 - 解码器）结合在一起以最大化可知性并保留对话能力，在两个知识驱动的对话任务中实现了最先进的性能，并经过人工评估证实，大大减少了在最先进的聊天机器人中存在的知识幻觉问题。

Apr, 2021