基于大型语言模型的复合视觉线索进行零样本视觉关系检测

May, 2023

基于大型语言模型的复合视觉线索进行零样本视觉关系检测

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

Lin Li, Jun Xiao, Guikun Chen, Jian Shao, Yueting Zhuang...

TL;DR通过使用 RECODE 方法，利用预训练图像 - 语言模型，我们能够解决零样本可视关系检测中存在的问题，提高了关系检测的准确性和可解释性。

Abstract

pretrained vision-language models, such as CLIP, have demonstrated strong generalization capabilities, making them promising tools in the realm of zero-shot visual recognition. →

pretrained vision-language models zero-shot visual recognition visual relation detection recode large language models

发现论文，激发创造

知识增强的少样本视觉关系检测

本研究提出了一个基于知识增强的少样本学习（few-shot learning）框架，利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识，从而提高了少样本学习的实用性和性能。与现有最先进模型相比，在常用的 Visual Genome 数据集的三个基准测试中，本方法的性能大幅超越了现有最先进模型。

Mar, 2023

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

RelVAE: 微量样本视觉关系检测的生成预训练

我们提出了一种首个预训练方法，用于少样本谓词分类，无需任何带注释的关系；我们构建了少样本训练集，并在 VG200 和 VRD 数据集上展示了我们模型超过基准的定量实验；最后，我们通过进行各种定性实验来解释模型的决策。

Nov, 2023

基于剪辑的视频关系检测的辩护

使用视频片段和时间边界，通过空间边界框和时间边界在视频中检测视觉关系三元组，提出了一种层次上下文模型（HCM），通过片段丰富了基于对象的空间上下文和基于关系的时间上下文，表明使用片段与大多数基于视频的方法相比可以取得更好的性能，并且在模型设计方面提供了更大的灵活性，有助于解决与视频片段相关的局限性，如挑战性的长期物体跟踪问题和长期管状特征压缩中的时序信息丢失。在两个具有挑战性的 VidVRD 基准测试中进行了广泛的实验，验证了我们的 HCM 实现了新的最先进性能，突出了在基于片段的范式内结合高级空间和时间上下文建模的有效性。

Jul, 2023

运用动作线索进行组合提示调整，用于开放词汇视频关系检测

本论文提出了使用运动线索的组合提示调优方法，名为 RePro，用于开放式词汇视频视觉关系检测的组合式预测。采用多模式设计的提示调优思想，RePro 在两个基准测试中表现出新的最先进性能，并进一步证明了所提出的方法的有效性。

Feb, 2023

使用专家混合模型进行视频关系检测

利用混合专家方法的 MoE-VRD 在视觉关系检测中展示了较优的性能，通过条件计算和可伸缩性能显著增强了神经网络容量。

Mar, 2024

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019

少样本视觉关系共定位

本文提出一个优化框架用于在小规模的图像集中并行定位多个视觉关系。框架使用应用于少样本学习的元学习技术，使用简单有效的关系嵌入，将传统的视觉关系定位问题扩展到了 VRC 任务，同时使用贪心近似推理确定大概是最优解。该算法在两个公共数据集上获得高切比实验结果。

Aug, 2021

VReBERT：一个简单灵活的用于视觉关系检测的 Transformer

利用 VReBERT 模型的多阶段训练策略，联合处理视觉和语义特征的 VRD 模型，可以有效地预测谓词关系，推动零样本预测技术的发展。

Jun, 2022

利用辅助文本进行深度识别未见视觉关系

提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型，通过共同的文本图像表示方法实现文本补充图像数据，结果表明图像中没有的文本信息可以显著提高模型性能

Oct, 2019