面向文本到视频检索的语义角色感知相关性变换器

Jun, 2022

面向文本到视频检索的语义角色感知相关性变换器

Semantic Role Aware Correlation Transformer for Text to Video Retrieval

Burak Satar, Hongyuan Zhu, Xavier Bresson, Joo Hwee Lim

TL;DR该论文提出了一种新型的 Transformer 模型，将文本和视频显式分离，通过注意力机制了解三种角色的内部和内部角色之间的相关性，以在不同级别上寻找识别特征，初步结果表明，在所有的指标中，我们的方法都超过了当前最先进的方法，在两个指标上也超过了两种最先进的方法。

Abstract

With the emergence of social media, voluminous video clips are uploaded every day, and retrieving the most relevant visual content with a language query becomes critical. Most approaches aim to learn a joint embedding space for plain textual and visual contents without adequately explo

social media video retrieval transformer intra-modality structures inter-modality correlations

发现论文，激发创造

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

通过自然语言查询进行联合时刻检索和高亮检测

本计划提出了一种新方法，使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测，以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻，并在多个数据集上进行评估，如 YouTube 亮点和 TVSum。

May, 2023

视频表示学习中基于相关性引导的查询依赖校准用于时间标定

设计了一种基于相关性引导的检测变换器（CG-DETR），通过自适应的交叉关注层、推断视频剪辑和单词之间的细粒度相关性以及视频剪辑的文本参与度，对视频和文本查询之间的模态差距进行强大的跨模态交互，提高了瞬间检索和精彩时刻检测的性能。

Nov, 2023

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

利用语义角色上下文化视频特徵进行多示例文本 - 视频检索 —— EPIC-KITCHENS-100 针对多示例检索挑战赛 2022 年的应用

本研究介绍了我们在 2022 年 EPIC-KITCHENS-100 多实例检索挑战中的方法，首先将句子解析为动词和名词对应的语义角色，然后通过自注意力在多个嵌入空间内的三元损失函数利用语义角色语境化视频特征和文本特征，优于强基线方法的标准化折扣累积增益（nDCG），对于语义相似性更有价值，我们的提交在 nDCG 中排名第三，在 mAP 中排名第四。

Jun, 2022

基于 Transformer 双关系图的多标签图像识别

本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Oct, 2021

利用视觉语义推理进行视频 - 文本检索

为了提高视频检索的性能，我们提出了一种名为 ViSERN 的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020