通过视听计数重复活动

CVPRMar, 2021

Repetitive Activity Counting by Sight and Sound

Yunhua Zhang, Ling Shao, Cees G.M. Snoek

TL;DR本文介绍了一种将视听融合用于视频中重复活动计数的新方法，通过使用音频信息可以在遇到困难的视觉条件下获得更精确的结果。通过引入音频学习模块和可靠性评估模块的跨模态时间交互进行分析，已经在一个数据集上对该模型进行了学习和评估，并针对具有挑战性的视觉条件引入了数据集变体。实验表明，使用音频以及其他模块可显著提高模型的性能。

Abstract

This paper strives for repetitive activity counting in videos. Different from existing works, which all analyze the visual video content only, we incorporate for the first time the corresponding sound into the repetition counting process. This benefits accuracy in →

repetitive activity counting audiovisual temporal stride decision reliability estimation cross-modal temporal interaction challenging vision conditions

发现论文，激发创造

环境声音有助于：在极端条件下进行音视频人群计数

本研究提出了一种音频视觉人群计数方法，使用采集的大型数据集共 1,935 张图像和相应的音频片段，并对其进行了 170,270 个标注实例。实验结果表明，引入音频信息可以在不同的照明、噪声和遮挡条件下有助于人群计数。

May, 2020

全分辨率重复计数

本文提出结合离线特征提取和时间卷积网络从全面的时间分辨率角度理解重复动作，设计了不需要下采样即可保留所有重复内容的重复计数网络，并利用动态扩展的时间感受野框架来检索所有重复内容，实验证明该方法优于或可与其他方法相媲美。

May, 2023

野外类别无关视频重复计数

本文介绍了一种利用时间自相似性作为中间表征的方法，通过一定的限制来预测视频中重复动作的周期，结果表明，该模型在现有周期性和重复计数基准测试任务上显著超越现有技术，并在新的数据集 Countix 上显示了鲁棒性。

Jun, 2020

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

上下文感知和规模无关的时间重复计数

本研究提出了一种上下文感知、不受时间尺度影响的框架，用于解决复杂重复动作的数量估计问题。通过回归方法和粗到细的循环长度细化方法，该框架能够准确地捕获不同领域的重复模式，此外，还构建了一个新的、最大的基准来促进该领域的训练和评估。

May, 2020

Sound2Sight：从声音和上下文生成视觉动态

本研究提出了一种基于多模态深度变分模型的音频 - 视觉联合生成模型，通过学习音频及以前帧的联合嵌入，学习每一帧的随机先验知识，并生成未来视频及其动态信息。此外，还通过多模态鉴别器强化了生成框架的视频质量和一致性，实验表明该方法可以生成高质量和多样化的视频。

Jul, 2020

灵活计数：野外人类动作范例识别与小样本计数

本研究通过使用可穿戴设备的传感器数据来计算人类感兴趣的动作的数量，提出了一种新颖的基于样例的框架，允许用户通过发出预定义声音 ''one''、''two'' 和 ''three'' 来提供所需计数的样例。我们的方法首先从音频序列中定位这些话语的时间位置。这些位置用于识别代表感兴趣的动作类别的样例。然后，在样例和整个传感器数据序列之间计算相似度映射，然后将其输入到密度估计模块中生成一系列估计的密度值。将这些密度值相加即可得到最终的计数。我们引入了一个包含来自 37 个被试者和 50 个动作类别的真实数据的多样化和真实性的数据集来开发和评估我们的方法，其中包括传感器和音频数据。在该数据集上的实验证明了该方法在计算新类和训练数据中不包含的受试者的动作实例时的可行性。平均而言，预测计数与实际值之间的差异为 7.47，显著低于基于频率和基于转换器的方法的误差。本研究的项目、代码和数据集可以在此 https URL 找到。

Dec, 2023

高效动态查询中的行动计数

视频内的动作周期重复计数是一项旨在量化重复动作周期的任务，本研究提出了一种新方法，利用动作查询表示定位重复的动作周期，并进一步开发了两个关键组件，以解决时间重复计数的基本挑战。

Mar, 2024

视觉到声音：在野外生成自然视频音频

该研究旨在利用基于学习的方法生成视频图像相应的声音，以此实现虚拟现实应用或为盲人提供图像的辅助访问。该研究表明，分别利用视觉图像作为输入，生成的声音是相当真实的，并且与视觉输入具有良好的时间同步性。

Dec, 2017

ECLIPSE: 利用视听进行高效长距离视频检索

我们引入了一种音视频结合的文本到视频检索方法，称为 ECLIPSE，该方法通过将动态音频事件与视频的补充提示统一编码来适应长范围视频，提高了检索准确性降低了计算成本。

Apr, 2022