Jun, 2024

利用视频中的音频和视觉内容进行相机模型识别

TL;DR提出了一个用于通过音频、视觉内容或两者的融合来识别设备的框架,使用了卷积神经网络进行设备识别问题的分类,并通过实验证明,在独立使用音频或视觉内容时,该框架表现出有希望的分类性能。此外,融合结果虽然并不始终超过单个模态,但展示了增强分类性能的潜力。未来的研究可以进一步改进融合过程,以在两种模式下实现持续提升的分类性能。最后,进行了统计显著性测试,对分类结果进行了深入研究。