ViSiL: 细粒度时空视频相似性学习

Aug, 2019

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning

Giorgos Kordopatis-Zilos, Symeon Papadopoulos, Ioannis Patras, Ioannis Kompatsiaris

TL;DR本文介绍了 ViSiL，一种视频相似性学习架构，它考虑了视频对之间的细粒度时空关系，包括了相似性评估之前的整个帧或整个视频的向量描述。通过卷积神经网络，我们从提炼的帧间相似性矩阵中计算视频间相似度，以同时考虑帧内和帧间的相似性。我们的方法避免了在帧之间的相似度计算之前进行特征聚合。我们使用三元组损失方案训练提出的网络，并在五个公共基准数据集上评估它，其中涵盖了四种不同的视频检索问题，结果表明，我们的方法比现有技术取得了显着的进步。ViSiL 的实现公开可用。

Abstract

In this paper we introduce ViSiL, a video similarity learning architecture that considers fine-grained spatio-temporal relations between pairs of videos -- such relations are typically lost in previous video retr

发现论文，激发创造

针对部分视频复制检测的视频相似度和对齐学习

提出了 Video Similarity and Alignment Learning（VSAL）方法，通过模拟时空相似性和部分对齐来实现视频相似性学习，从而提高视频复制检测的准确率。通过在 VCDB 核心数据集上测试，证明 VSAL 的 F1 得分高于现有模型，并通过在 FIVR-200k 数据集上添加新的片段级注释来验证在更具挑战性的情况下的有效性。

Aug, 2021

重新思考自监督对应关系学习：基于视频帧层面的相似性视角

通过 Video Frame-level Similarity (VFS) 学习实现物体跟踪和视频对象像素分割的通用对应表示

Mar, 2021

使用多尺度卷积神经网络学习立体模拟的相似性测度

提出了一种基于熵的相似度模型，利用此模型提出了基于传输和运动模拟产生的标量和矢量数据相似性评估的物理意义的基准距离；此外，还提出了一个多尺度 CNN 架构用于计算体积相似度度量（VolSiM），该学习方法的提出是首次特别针对高维模拟数据相似性评估所面临的挑战；最后，评估了 VolSiM 的鲁棒性和概括性，并对其应用进行了实例讨论。

Feb, 2022

自监控的视频相似度学习

介绍了一种名为 S$^2$VS 的视频相似度学习方法，采用自我监督学习来处理多个检索和检测任务，使用任务定制的增强和 InfoNCE 损失，同时学习自相似性和硬负相似性，具有与有标注数据方法相媲美的性能，在视频相关性定义的不同颗粒度上均达到了最先进水平。

Apr, 2023

可归因的视觉相似度学习

本文提出 AVSL 框架，用于更精确和可解释地衡量图像之间的相似度，通过基于人类语义相似性认知构建通用相似性学习范式，使用图形以及自下而上的相似性构建和自上而下的相似性推断框架，在语义层次一致性的基础上推断相似性，取得了显著的改进，并验证了框架的可解释性。

Mar, 2022

时空对比视频表征学习

本文引入了一种基于对比损失的自监督对比视频表示学习方法，利用在嵌入空间中相同短视频的两个增强剪辑进行学习，同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识，在 Kinetics-600 数据集上，该方法可以超过 ImageNet 和 SimCLR 的性能，达到 70.4% 的 top-1 准确率

Aug, 2020

VISOLO：基于网格的时空聚合，实现高效的在线视频实例分割

本文提出了一种基于网格结构特征表示的新型单阶段框架，并引入协作操作模块来聚合可用帧的信息以丰富所有 VIS 子任务的特征，从而在所有 VIS 任务中高效地充分利用先前信息，实现了实时处理，并在 YouTube-VIS 2019 和 21 数据集上获得了新的最高准确率（38.6 AP 和 36.9 AP）和速度（40.0 FPS），代码已公开。

Dec, 2021

视频实例分割的时空对比学习

本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架，利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性，在 YouTube-VIS-2019，YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。

Feb, 2022

来自未标记视频的最近邻内部对比学习

该研究介绍了一种叫做 Inter-Intra Video Contrastive Learning (IIVCL) 的方法，利用来自全局空间的最近邻视频作为额外的正对。该方法提高了正关键图的多样性，并引入了一个更松散的相似性概念，扩展到了视频甚至跨类边界。在一系列视频任务上，性能得到了提高。

Mar, 2023

利用视觉语义推理进行视频 - 文本检索

为了提高视频检索的性能，我们提出了一种名为 ViSERN 的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020