多分辨率音视频特征融合用于时序动作定位
本文提出了简单而有效的基于融合的方法,首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL),在多个融合方案、模态组合和 TAL 架构的消融试验中,我们通过大规模基准数据集(ActivityNet-1.3 和 THUMOS14)实验性地表明,我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能,特别地在指标度量上([email protected])达到新的最优水平。
Jun, 2021
提出了一种新模型 MAiVAR-T(Multimodal Audio-Image to Video Action Recognition Transformer),旨在融合音频和图像模态以提高多模态人体动作识别(MHAR)的效果,并在基准动作识别数据集上展示了卓越的性能。
Aug, 2023
介绍了基于 Faster R-CNN 的 TAL-Net 方法,通过多尺度架构、适当扩展感受野、多流特征融合等方式改进了视频中的时间动作定位,实现了在 THUMOS'14 目标检测基准和 ActivityNet 挑战赛中的平均最优表现。
Apr, 2018
UniAV 是一种统一的视听感知网络,可以联合学习时间动作定位(TAL)、声音事件检测(SED)和视听事件定位(AVEL)任务,并通过使用预训练的文本编码器设计统一的语言感知分类器,实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型,在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。
Apr, 2024
通过视频和音频的预处理,提取视觉和音频特征,并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力,融合预训练的音频和视频模型进行特征提取,实现了较好的 VA 评估性能(简化中文摘要)。
Mar, 2024
利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要,本论文提出了一种利用音视频多模态数据的新方法,通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合,显著提高了面部动作单元检测的准确性,突显了对复杂场景理解的重要进展,为未来研究铺平了道路。
Mar, 2024
通过提出细粒度的音视频联合表示学习框架 (FAVOR),同时感知音频和视觉输入流中的语音、音频事件以及图像或视频,利用因果关注模块增强音视频帧之间的因果关系捕捉,在音频、语音和图像任务上取得了有竞争力的单模态性能,并在需要细粒度信息或时间因果推理的视频问答任务上实现了超过 20% 的准确度改进,表现出了出色的视频理解和推理能力。
Oct, 2023
该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验,该方法在性能上取得了显著的改进。
Jun, 2024
本文提出了一种名为 TSA-MLT 的端到端方法,在多层次特征上使用多层 Transformer 并使用任务特定的 TSA 进行处理,然后使用 L2 和 Optimal transport 距离度量进行融合,并以交叉熵损失进行训练以获得时间和语义方面的对齐,实验结果表明,在 HMDB51 和 UCF101 数据集上获得了最先进的结果,在 Kinetics 和 something-2-something V2 数据集基准测试上也有竞争力。
Jul, 2023
提出了一种用于点级别监督时序动作定位的新方法,通过生成和评估具有灵活时长的动作提案来定位动作,利用聚类算法生成密集伪标签提供更强的监督,并利用精细的对比损失进一步提高伪标签的质量,实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。
Oct, 2023