音视频交叉模态检索中标签空间的完整三元组损失

Nov, 2022

音视频交叉模态检索中标签空间的完整三元组损失

Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval

Donghuo Zeng, Yanan Wang, Jianming Wu, Kazushi Ikeda

TL;DR本文提出了一种新的 AV-CMR 模型，通过直接预测标签并使用完整的交叉三元组损失来优化语义特征，从而优化音频 - 视觉数据之间的内在相关性，解决了模型训练敏感性问题和选取困难问题。在两个音频 - 视觉双重检查数据集上的广泛实验结果表明，与现有的 TNN-CCCA 方法相比，平均 MAP 提高了约 2.1％，验证了我们提出的模型的有效性。

Abstract

The heterogeneity gap problem is the main challenge in cross-modal retrieval. Because cross-modal data (e.g. audiovisual) have different distributions and representations that cannot be directly compared. To brid

cross-modal retrieval audiovisual tnn-ccca semantic features complete cross-triplet loss

发现论文，激发创造

音视频检索的两阶段三元组损失训练及课程增强

通过课程学习引导，本研究提出了一种两阶段训练范式，从半硬三元组到困难三元组，来优化跨模态检索模型的性能。在两个音视频数据集上进行的广泛实验结果显示，与当前最先进方法 MSNSCA 相比，我们提出的方法在 AVE 数据集上的视听跨模态检索任务的平均均值平均准确率 (MAP) 方面有显著提升，约为 9.8%，表明我们的方法的有效性。

Oct, 2023

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

通过跨模态梯度协调扩展多模态预训练

本文讨论了跨模态对齐的效果和问题，提出了通过梯度调整和基于梯度的课程学习解决梯度冲突的方法，并将其应用于视频音频文本模态的预训练中以提高性能。

Nov, 2022

音频和视觉信号的跨模态映射的深度潜在空间学习

该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验证和匹配方面实现了最先进的性能，验证了该技术在跨模式生物认证应用中的有效性。

Sep, 2019

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

使用 S-DCCA 算法构建跨模态音乐视频检索模型，其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块，使得得到的局部音频摘要能够很好地代表整个音频内容，构建的深度学习模型实现了音频和视频语义的跨模态学习，从而实现了跨模态情感相似的音乐视频检索，并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。

Aug, 2019

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

跨模态一致性下的视听实例鉴别

文中介绍了一种自监督学习方法，通过交叉模态辨别视频和音频来学习视听表征，其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别，可以学习到来自视频和音频的良好表征，并可于行动识别任务中获得高竞争性能。同时，文中提到该方法采用交叉模态协同度量相似性，构造更好的正负样本集合，从而实现了对可视相似度的校准。

Apr, 2020

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

基于 3D 卷积神经网络的跨模态音视频匹配识别

本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方法显著提高了性能，相比于最先进的方法 Equal Error Rate（EER）的相对改进超过 20% ，而平均准确度（AP）的相对改进超过 7%。

Jun, 2017