音视频检索的两阶段三元组损失训练及课程增强

Oct, 2023

音视频检索的两阶段三元组损失训练及课程增强

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

Donghuo Zeng, Kazushi Ikeda

TL;DR通过课程学习引导，本研究提出了一种两阶段训练范式，从半硬三元组到困难三元组，来优化跨模态检索模型的性能。在两个音视频数据集上进行的广泛实验结果显示，与当前最先进方法 MSNSCA 相比，我们提出的方法在 AVE 数据集上的视听跨模态检索任务的平均均值平均准确率 (MAP) 方面有显著提升，约为 9.8%，表明我们的方法的有效性。

Abstract

The cross-modal retrieval model leverages the potential of triple loss optimization to learn robust embedding spaces. However, existing methods often train these models in a singular pass, overlooking the distinction between semi-hard and →

cross-modal retrieval triple loss optimization semi-hard triples hard triples curriculum learning

发现论文，激发创造

音视频交叉模态检索中标签空间的完整三元组损失

本文提出了一种新的 AV-CMR 模型，通过直接预测标签并使用完整的交叉三元组损失来优化语义特征，从而优化音频 - 视觉数据之间的内在相关性，解决了模型训练敏感性问题和选取困难问题。在两个音频 - 视觉双重检查数据集上的广泛实验结果表明，与现有的 TNN-CCCA 方法相比，平均 MAP 提高了约 2.1％，验证了我们提出的模型的有效性。

Nov, 2022

双模态注意力增强的文本 - 视频检索与三元局部对比学习

通过改进对比学习方法，引入新的技术，分别利用文本和视觉线索，从中挖掘出困难负样例，并且能够自适应地确定它们对训练损失的影响；同时，通过构建部分有序三元组样本来模拟细粒度语义相似性，以提高文本 - 视频检索的性能。

Sep, 2023

通过 MildTriple Loss 实现运动和文本的跨模态检索

本文提出了一种基于 transformer 和 triplet loss 的 cross-modal retrieval 模型来解决 human motion sequences 和 text 之间的检索问题，并提出了一种新的 MildTriple Loss 来减少 semantic conflicts 的影响，经实验证明，在 HumanML3D 和 KIT Motion-Language 数据集上具有较高的检索召回率。

May, 2023

一种用于封面检测的原型三元组损失

用卷积神经网络将每个音轨映射到一个嵌入向量，并在嵌入空间中最小化覆盖对的距离，同时在非覆盖下最大化，以检测音频文件是否嵌入其目录中的音乐内容，同时提出了两种改进的方法来提高模型在困难情况下的准确性。

Oct, 2019

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020

音频和视觉信号的跨模态映射的深度潜在空间学习

该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验证和匹配方面实现了最先进的性能，验证了该技术在跨模式生物认证应用中的有效性。

Sep, 2019

TripletMix: 三维理解的三元组数据增强

我们提出了 TripletMix，一种新的方法来解决多模态数据增强在 3D 理解中的问题，通过混合增强的原则同时增强文本、图像和点云三种模态数据，从而提高模型的跨模态理解能力和泛化能力。

May, 2024

音视频说话人验证的弱监督多任务学习

本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术，我们提高了距离度量学习方法的性能，并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时，我们将广义端到端损失（GE2E）扩展到多模态输入，并证明其在音视频领域可以达到竞争性的性能。最后，我们引入了一种非同步音视频采样的随机策略，该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平，并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率（EER），据我们所知，这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。

Sep, 2023