多视角视频学习：利用弱标注实现帧级感知

Mar, 2024

多视角视频学习：利用弱标注实现帧级感知

Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception

Vijay John, Yasutomo Kawanishi

TL;DR使用弱标签在多视角视频上训练基于视频的动作识别模型，并使用潜在嵌入来提高准确性。

Abstract

For training a video-based action recognition model that accepts multi-view video, annotating frame-level labels is tedious and difficult. However, it is relatively easy to annotate sequence-level labels. This kind of coarse annotations are called as →

video-based action recognition multi-view video weak labels latent embeddings downstream models

发现论文，激发创造

从未剪辑的视频中识别不确定动作

本文提出了一种基于视频级别标签进行训练的视频动作识别模型，该模型利用大型图像数据集中训练的逐帧人物检测器，在多实例学习框架内实现。此外，我们使用新的概率多实例学习方法来估计每个预测的不确定性，并在 AVA 数据集上取得了第一个弱监督结果，在 UCF101-24 上获得了弱监督方法的最新成果。

Jul, 2020

神经网络维特比算法：弱监督视频学习框架

本文提出了一种基于 Viterbi 损失的学习算法，能够在线和逐步地学习弱标注的视频数据，并展示了显式的上下文和长度建模对于视频分割和标记任务的巨大改进，并将这些模型纳入我们的框架之中，在几个动作分割基准测试中，与当前最先进的方法相比，我们实现了高达 10% 的改进。

May, 2018

基于背景建模的弱监督动作定位

该研究提出了一种潜在方法，利用注意力模型进行弱监督学习，其可以检测出影片中的动作，而无需特定类别的标签，并利用弱监督学习进行比较准确的学习和定位，成功地应用于 Instagram 中的不加筛选的视频之间。

Aug, 2019

视频动作识别的大规模弱监督预训练

使用大量网络视频进行预训练能够显著提高三个具有挑战性的公共行动识别数据集的性能，并对弱监督视频行动数据集的构建进行了深入研究。

May, 2019

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

多视角伪标记用于视频半监督学习

我们提出了一种多视角伪标记方法来进行视频学习，它利用外观和运动信息的互补视角进行半监督学习，以获取更可靠的伪标签并比纯监督数据学习更强的视频表示。我们的方法在多个视频识别数据集上大大优于其监督对应方法，并在自监督视频表示学习的标准基准测试中与先前的工作相比具有竞争优势，同时仍然训练一个共享外观和运动输入的模型，因此在推理时间不会产生额外的计算开销。

Apr, 2021

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019

基于不确定性建模进行弱监督时序动作定位

该论文提出了一种新的关于背景帧的观点，在这个观点中，背景帧是关于其不一致性的离群样本，通过学习不确定性，背景帧可以被检测出来，而这种不确定性的学习是通过多实例学习实现的，进一步引入了一个背景熵损失以更好地鉴别背景帧。研究表明，我们的不确定性建模可以有效地减轻背景帧的干扰，并且在 THUMOS'14 和 ActivityNet（1.2 和 1.3）基准测试上取得了明显优于最先进方法的性能表现。

Jun, 2020

利用非对齐文本进行弱监督视频表示学习

本文提出了一种基于 transformer，支持弱监督下视频理解的方法，主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。

Mar, 2023

基于活动的弱监督目标检测

我们的研究工作在弱监督目标检测方面尝试利用不仅仅是物体类别标签，还使用数据中关联的动作标签；我们发现图像 / 视频中描绘的动作可以为相关物体的位置提供强烈的线索，并利用动作学习了一个与物体相关的空间先验，并将其融入到联合目标检测和动作分类模型中进行同时训练。我们在视频数据集和图像数据集上进行了实验来评估我们的弱监督目标检测模型的性能，结果表明，在 Charades 视频数据集上，我们的方法在 mAP 上比当前最先进的方法提高了 6% 以上。

Apr, 2019