看似相似，听起来不同：利用反事实的跨模态样本进行视听表示学习

Apr, 2023

看似相似，听起来不同：利用反事实的跨模态样本进行视听表示学习

Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning

PDF

Nikhil Singh, Chih-Wei Wu, Iroro Orife, Mahdi Kalayeh

TL;DR研究了在音频与视觉之间进行对应时，出现多个音频轨道时的学习效果，探讨了使用配音版本来增加跨模态对比学习的方法，提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性，并表明配音可以作为训练音频视觉模型的一种有用增强技术。

Abstract

audiovisual representation learning typically relies on the correspondence between sight and sound. However, there are often multiple audio tracks that can correspond with a visual scene. Consider, for example, different conversations on the same crowded street. The effect of such coun

audiovisual representation learning dubbed audio cross-modal contrastive learning speech variation audiovisual models

发现论文，激发创造

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

从合成音频 Doppelgangers 进行对比学习

通过使用合成音频生成具有因果关系的音色、音高和时间包络变化的混合音频，我们提出了一种轻量级的方法来学习健壮的音频表示，该方法可以减轻从真实世界音频中获取大规模数据的负担，并在标准音频分类基准上取得强大的表现。

Jun, 2024

跨模态一致性下的视听实例鉴别

文中介绍了一种自监督学习方法，通过交叉模态辨别视频和音频来学习视听表征，其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别，可以学习到来自视频和音频的良好表征，并可于行动识别任务中获得高竞争性能。同时，文中提到该方法采用交叉模态协同度量相似性，构造更好的正负样本集合，从而实现了对可视相似度的校准。

Apr, 2020

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

从音频 - 视觉空间对齐中学习表示

介绍了一个针对学习自我监督前置任务的音频视频表示方法，通过引入 transformer 架构和空间对齐技术，提高了网络的感知和学习效率，结果表明，该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。

Nov, 2020

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

CLAR: 对听觉特征的对比学习

本文基于 SimCLR 的前期工作，提出了适用于音频数据的各种数据增强方案，并调查了它们对预测性能的影响，同时证明了采用时频音频特征训练，在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下，该方法明显地改善了预测性能，同时比自监督训练更快地收敛并具有更好的表示能力。

Oct, 2020

EquiAV：利用等变性进行音频视觉对比学习

在自监督音频 - 视觉表示学习方面的最新进展中，引入了 EquiAV 框架，通过利用等变性来实现音频 - 视觉对比学习，并通过共享的基于注意力的转换预测器实现特征聚合，从而提供了稳健的监督。EquiAV 在各种音频 - 视觉基准测试中优于之前的工作。

Mar, 2024

音频表示的多格式对比学习

本研究通过多种不同格式的单一模态对比学习框架，最大程度地提高音频表示的有效性，取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上，我们的声音单一方法取得了新的最佳结果，平均精度为 0.376，准确率为 90.5％。

Mar, 2021