AUD-TGN：在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测

Mar, 2024

AUD-TGN：在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测

AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts

Jun Yu, Zerui Zhang, Zhihong Wei, Gongpeng Zhao, Zhongpeng Cai...

TL;DR利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要，本论文提出了一种利用音视频多模态数据的新方法，通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合，显著提高了面部动作单元检测的准确性，突显了对复杂场景理解的重要进展，为未来研究铺平了道路。

Abstract

Leveraging the synergy of both audio data and visual data is essential for understanding human emotions and behaviors, especially in in-the-wild setting. Traditional methods for integrating such multimodal information often stumble, leading to less-than-ideal outcomes in the task of facial action unit detection. To overcome these shortcomings, we propose a n

audio-visual multimodal data facial action unit detection mel frequency cepstral coefficients (mfcc)log-mel spectrogram features context-aware fusion

发现论文，激发创造

多标签面部动作单元检测的时空线索建模

提出了一种基于混合网络体系结构的面部动作单元检测方法，可同时处理面部表情解码中的三个问题：空间表示，时间建模和 AU 相关性。

Aug, 2016

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

带自监督学习的多模态感知注意力网络用于音视说话者追踪

本文提出了一种利用声音和视觉模态进行讲话者跟踪的多模态感知跟踪器（MPT），其中包括使用基于空时全局相干字段（stGCF）的声学地图进行异构信号融合，引入多模态感知注意力网络来导出可靠性和效益的知觉权重，以及使用跨模态自我监督学习方法模拟不同模态之间的互补性和一致性。实验结果表明，所提出的 MPT 在标准数据集和遮挡数据集上分别达到了 98.6% 和 78.3% 的跟踪精度，证明了其在不利条件下的鲁棒性优于目前的最新技术。

Dec, 2021

听我说：用混合方法增强音频时序动作定位

本文提出了简单而有效的基于融合的方法，首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL)，在多个融合方案、模态组合和 TAL 架构的消融试验中，我们通过大规模基准数据集（ActivityNet-1.3 和 THUMOS14）实验性地表明，我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能，特别地在指标度量上（[email protected]）达到新的最优水平。

Jun, 2021

面部动作单元检测的时空关系和注意力学习

本研究提出了一种基于空间 - 时间关系和注意力机制的面部动作单元检测框架，其中使用了空间 - 时间图卷积网络来捕捉动态面部动作单元的空间和时间关系，并使用自适应学习的边界权重来形成关系图。此外，为了学习 AU 之间的时空关系，我们提出了一种注意力机制，以自适应地学习区域注意力，并通过抑制不相关区域来提取每个 AU 的完整特征。实验结果显示，我们的方法在 BP4D 和 DISFA 基准测试中实现了显著的改进。

Jan, 2020

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

多分辨率音视频特征融合用于时序动作定位

多分辨率音视频特征融合（MRAV-FF）是一种创新的方法，通过层级化门控交叉注意机制将不同时间分辨率的音视频数据合并，以提高时域动作定位任务的性能。

Oct, 2023

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

通过视频和音频的预处理，提取视觉和音频特征，并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力，融合预训练的音频和视频模型进行特征提取，实现了较好的 VA 评估性能（简化中文摘要）。

Mar, 2024

音视频领导者 - 追随者注意力融合的连续情感识别

本文提出一种视听空间时域深度神经网络，其中包括预训练的二维 - CNN 和几个平行 TCNs，同时利用视听信息，通过跨验证来充分利用数据和缓解过度拟合，并使用交界面关注机制来强调视觉模态和利用嘈杂的听觉模态。在测试集中，本文的方法在 valence 和 arousal 方面通过了 CCC 测试，相较于其他方法有明显的准确度提升。

Jul, 2021