使用自然语言查询进行交互式检索复杂场景的逐层钻取
介绍了一种新的交互式图像检索方法,该方法允许用户通过自然语言提供反馈,形成了一个基于强化学习的对话系统,用于提高目标图像的排名,该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。
May, 2018
本研究论文提出了基于神经符号方法,利用场景图像来进行文本图像检索的解决方案,并训练了一种可学习的图匹配算法来实现检索任务,并实现了一个基于交互式问答的迭代检索框架。
Nov, 2019
使用自然语言接口和语境 AI 的研究,探索以自然语言查询来识别 3D 场景图的场景检索方法,并介绍了 Text2SceneGraphMatcher 的学习框架和数据集。
Apr, 2024
本文提出了一种基于 SCRC 模型来实现自然语言对象检索的方法,利用空间配置和全局场景级上下文信息对网络进行评分,通过循环网络处理查询文本、本地图像描述符、空间配置以及全局上下文特征来输出概率,实现了从图像标题到任务的视觉语言知识的转移,实验结果表明我们的模型有效地利用了局部和全局信息,在不同数据集和场景中显著优于先前的基准方法,并可以利用大规模的视觉和语言数据集进行知识转移。
Nov, 2015
本论文提出了一种针对图像检索中存在的信息不完整问题的解决框架 —— 基于 Ask-and-Confirm 策略的交互式检索方法,通过基于强化学习的学习策略和弱监督训练方法,大幅提高了基于文本的图像检索性能。
Mar, 2021
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法,并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明,使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题,并在推理时间非常快的同时,提供了对对象的详细理解。
Mar, 2018
本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
Sep, 2019
本文研究了基于神经检索的循环架构在知识驱动的对话中的应用,将多个组件(检索器、排名器和编码器 - 解码器)结合在一起以最大化可知性并保留对话能力,在两个知识驱动的对话任务中实现了最先进的性能,并经过人工评估证实,大大减少了在最先进的聊天机器人中存在的知识幻觉问题。
Apr, 2021