利用视频中的音频和视觉内容进行相机模型识别

Jun, 2024

利用视频中的音频和视觉内容进行相机模型识别

Camera Model Identification Using Audio and Visual Content from Videos

Ioannis Tsingalis, Christos Korgialas, Constantine Kotropoulos

TL;DR提出了一个用于通过音频、视觉内容或两者的融合来识别设备的框架，使用了卷积神经网络进行设备识别问题的分类，并通过实验证明，在独立使用音频或视觉内容时，该框架表现出有希望的分类性能。此外，融合结果虽然并不始终超过单个模态，但展示了增强分类性能的潜力。未来的研究可以进一步改进融合过程，以在两种模式下实现持续提升的分类性能。最后，进行了统计显著性测试，对分类结果进行了深入研究。

Abstract

The identification of device brands and models plays a pivotal role in the realm of multimedia forensic applications. This paper presents a framework capable of identifying devices using audio, →

device identification multimedia forensic applications audio visual content convolutional neural networks

发现论文，激发创造

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

一种基于多流融合和单类学习的音视频深伪造检测方法

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

研究音频、视觉和文本融合方法，实现端到端的自动人格预测

通过音频、文字和视频数据，采用多模态融合的方法，使用卷积神经网络预测大五人格特质分数，证明复杂交互能建立更好的模型与预测，该模型可用于提高虚拟代理的情商。

May, 2018

揭示视听早期融合变压器的强大力量：通过遮蔽建模实现密集交互

本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器，以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越，极大地推动了早期融合架构的应用。

Dec, 2023

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

视频中的视觉和音频场景分类：一种基线方法和实验协议

该研究提出了一种用于多媒体内容的特定内容验证问题的基准方法和实验方案：检测音频和视频之间的差异。通过设计和优化音频 - 视觉场景分类器，将其与使用两个模态性的已有分类基线进行比较。然后，通过将该分类器分别应用于音频和视觉模态，我们可以检测它们之间的场景分类不一致性。为了促进进一步的研究并提供一个共同的评估平台，我们介绍了一个模拟这种不一致性的实验方案和基准数据集。我们的方法在场景分类方面取得了最先进的结果，并在音频 - 视觉差异检测方面取得了有希望的成果，突显了其在内容验证应用中的潜力。

May, 2024