双重导师：一种无偏的音频 - 视觉源定位半监督框架

Mar, 2024

双重导师：一种无偏的音频 - 视觉源定位半监督框架

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

Yuxin Guo, Shijie Ma, Hu Su, Zhiqing Wang, Yuhao Zhao...

TL;DR提出一种新的半监督学习框架，称为 Dual Mean-Teacher（DMT），通过两个教师 - 学生结构绕过确认偏差问题，充分利用有标签和无标签数据，通过教师之间的一致性过滤噪声样本并生成高质量的伪标签，从而在 Audio-Visual Source Localization（AVSL）中取得了明显优于当前先进方法的性能。

Abstract

audio-visual source localization (AVSL) aims to locate sounding objects within video frames given the paired audio clips. Existing methods predominantly rely on self-supervised contrastive learning of audio-visual correspondence. Without any bounding-box annotations, they struggle to a

audio-visual source localization semi-supervised learning dual mean-teacher consensus filtering pseudo-label generation

发现论文，激发创造

跨模态伪标签半监督音频 - 视觉源定位

我们的研究聚焦于半监督 AVSL 中的伪标签方法，提出了一种名为 Cross Pseudo-Labeling（XPL）的新方法，通过交互学习和交叉精炼机制，避免偏见积累，并结合软伪标签和课程数据选择模块以实现稳定训练，实验证明 XPL 相较于现有方法在性能上显著优越，并在保持稳定性的同时有效减轻了确认偏见。

Mar, 2024

T-VSL: 混合环境下的文本引导视听源定位

我们提出了一种利用 Tri-modal joint embedding 模型通过文本模态作为中间特征引导，在多源混合中分离语义音视源对应关系的 T-VSL 框架，该方法在训练期间通过预测混合中声音实体的类来引导细粒度的音视源对应关系的分离，展现了在测试期间对未见过的类别具有有希望的零 - shot 迁移能力。在 MUSIC、VGGSound 和 VGGSound-Instruments 数据集上的大量实验证明了该方法相对于最先进方法的显著性能提升。

Apr, 2024

音视频说话人验证的弱监督多任务学习

本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术，我们提高了距离度量学习方法的性能，并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时，我们将广义端到端损失（GE2E）扩展到多模态输入，并证明其在音视频领域可以达到竞争性的性能。最后，我们引入了一种非同步音视频采样的随机策略，该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平，并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率（EER），据我们所知，这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。

Sep, 2023

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

自我监督多模态知识蒸馏：利用声音进行多物体检测与跟踪

提出了一种新颖的自监督 MM-DistillNet 框架，利用多个教师的多样性模态（包括 RGB、深度和热成像）来同时利用互补线索并将知识蒸馏到单一的音频学生网络中，而且还引入了一种新的自监督假设任务来使我们不依赖于人工标注。该方法在探测物体方面具有优越性能，即使在移动的情况下也能使用声音来检测多个物体。

Mar, 2021

DMT：多个自监督教师进行的全面蒸馏

通过利用多个自监督模型的优势，压缩预训练模型，并在分类任务和密集任务中显著提高性能。

Dec, 2023

利用基础模型进行无监督音频 - 视觉分割

语音 - 视觉分割（AVS）通过像素级精确在视觉场景中描绘可听到的对象。我们提出了一种新的跨模态语义过滤（CMSF）方法，以解决这个问题，并利用现成的多模态基础模型来准确地关联潜在的音频 - 掩码对。我们的无监督方法在复杂情景中的多个听觉对象上表现优异，特别是在现有监督 AVS 方法在重叠前景对象方面表现困难的情况下，仍能准确地分割重叠的听觉对象。

Sep, 2023

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022