通过视听计数重复活动
本研究提出了一种音频视觉人群计数方法,使用采集的大型数据集共 1,935 张图像和相应的音频片段,并对其进行了 170,270 个标注实例。实验结果表明,引入音频信息可以在不同的照明、噪声和遮挡条件下有助于人群计数。
May, 2020
本文提出结合离线特征提取和时间卷积网络从全面的时间分辨率角度理解重复动作,设计了不需要下采样即可保留所有重复内容的重复计数网络,并利用动态扩展的时间感受野框架来检索所有重复内容,实验证明该方法优于或可与其他方法相媲美。
May, 2023
本文介绍了一种利用时间自相似性作为中间表征的方法,通过一定的限制来预测视频中重复动作的周期,结果表明,该模型在现有周期性和重复计数基准测试任务上显著超越现有技术,并在新的数据集 Countix 上显示了鲁棒性。
Jun, 2020
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
本研究提出了一种上下文感知、不受时间尺度影响的框架,用于解决复杂重复动作的数量估计问题。通过回归方法和粗到细的循环长度细化方法,该框架能够准确地捕获不同领域的重复模式,此外,还构建了一个新的、最大的基准来促进该领域的训练和评估。
May, 2020
本研究提出了一种基于多模态深度变分模型的音频 - 视觉联合生成模型,通过学习音频及以前帧的联合嵌入,学习每一帧的随机先验知识,并生成未来视频及其动态信息。此外,还通过多模态鉴别器强化了生成框架的视频质量和一致性,实验表明该方法可以生成高质量和多样化的视频。
Jul, 2020
本研究通过使用可穿戴设备的传感器数据来计算人类感兴趣的动作的数量,提出了一种新颖的基于样例的框架,允许用户通过发出预定义声音 ''one''、''two'' 和 ''three'' 来提供所需计数的样例。我们的方法首先从音频序列中定位这些话语的时间位置。这些位置用于识别代表感兴趣的动作类别的样例。然后,在样例和整个传感器数据序列之间计算相似度映射,然后将其输入到密度估计模块中生成一系列估计的密度值。将这些密度值相加即可得到最终的计数。我们引入了一个包含来自 37 个被试者和 50 个动作类别的真实数据的多样化和真实性的数据集来开发和评估我们的方法,其中包括传感器和音频数据。在该数据集上的实验证明了该方法在计算新类和训练数据中不包含的受试者的动作实例时的可行性。平均而言,预测计数与实际值之间的差异为 7.47,显著低于基于频率和基于转换器的方法的误差。本研究的项目、代码和数据集可以在此 https URL 找到。
Dec, 2023
视频内的动作周期重复计数是一项旨在量化重复动作周期的任务,本研究提出了一种新方法,利用动作查询表示定位重复的动作周期,并进一步开发了两个关键组件,以解决时间重复计数的基本挑战。
Mar, 2024
该研究旨在利用基于学习的方法生成视频图像相应的声音,以此实现虚拟现实应用或为盲人提供图像的辅助访问。该研究表明,分别利用视觉图像作为输入,生成的声音是相当真实的,并且与视觉输入具有良好的时间同步性。
Dec, 2017
我们引入了一种音视频结合的文本到视频检索方法,称为 ECLIPSE,该方法通过将动态音频事件与视频的补充提示统一编码来适应长范围视频,提高了检索准确性降低了计算成本。
Apr, 2022