该研究提出了一种人物文本 - 图像匹配方法,它通过嵌入文本特征可解释性和外部攻击节点,采用图卷积作为特征表示的基本框架,并模拟了文本和图像多样性对特征提取的对抗攻击和防御来提高模型的鲁棒性,从而有效解决了现有方法面临的挑战。
Nov, 2022
本文提出一种基于文本的人物搜索的新颖有效方法,使用双编码器和分离的跨模态解码器架构,采用两种新的损失来提供细粒度的跨模态特征,并在 CUHK-PEDES,ICFG-PEDES 和 RSTPReID 等三个流行基准测试中创造了排名前三的成绩。
Apr, 2023
本研究提出了一种隐式视觉 - 文本框架,通过多级和双向遮罩建模方法实现跨模态匹配,提高了人物的文本检索效果。
Aug, 2022
本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索,该网络能够准确定位和对齐图像和文本之间的信息,并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐,并在多个数据库上取得了优越的性能。
该研究提出了一种基于文本描述搜索人物图像的方法,通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配,其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明,该方法在 top-1 指标上比现有方法高出 15%。
Sep, 2018
本文提出了一种语义自对齐网络 (SSAN),旨在解决文本到图像中的人物再识别 (text-to-image person re-identification) 中的问题。SSAN 使用一个新颖的手段 —— 自动从两种模态提取语义对齐的部分级特征,并通过设计一个多视角非局部网络来捕捉身体部分之间的关系,从而建立更好的身体部位和名词短语之间的对应关系。此外, SSAN 还引入了一种 Compound Ranking (CR) loss,利用同一身份的其他图像的文本描述提供额外的监督,从而有效地降低文本特征的类内差异。经过广泛的实验,证明了该方法在性能上优于现有的最先进方法和一些高级算法,并提供了新的 ICFG-PEDES 数据集和 SSAN 代码。
Jul, 2021
本研究提出了一种基于卷积神经网络的新型架构,用于学习语义对齐的跨模态视觉和文本表示,其以 AXM-Block 作为基本构建块,动态地利用两种模态的多尺度知识,并根据共享语义重新校准每种模态。该框架利用文本数据作为视觉表示学习的超级注释信号,能够有效地学习模态之间的对齐语义,自动拒绝不相关信息,并在 CUHK-PEDES 数据集上表现出较高性能。
Jan, 2021
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。
Jul, 2023
通过提出一种视觉引导的语义组网络 (VGSG),本文针对基于文本的人物搜索 (TBPS) 问题,在引导的视觉线索下提取了对齐良好的细粒度视觉和文本特征,并设计了一种关系性知识传递方法来适应地传播信息从而在无需外部工具和复杂配对交互的情况下将语义组文本特征与相应的视觉特征进行对齐,该方法在两个具有挑战性的基准测试中展现了优越性。
Nov, 2023
研究了跨模态对齐的图像检索问题,提出了一种 IRRA 框架,并在三个公共数据集上获得了优于现有方法的最新成果。
Mar, 2023