音视频检索的两阶段三元组损失训练及课程增强
本文提出了一种新的 AV-CMR 模型,通过直接预测标签并使用完整的交叉三元组损失来优化语义特征,从而优化音频 - 视觉数据之间的内在相关性,解决了模型训练敏感性问题和选取困难问题。在两个音频 - 视觉双重检查数据集上的广泛实验结果表明,与现有的 TNN-CCCA 方法相比,平均 MAP 提高了约 2.1%,验证了我们提出的模型的有效性。
Nov, 2022
通过改进对比学习方法,引入新的技术,分别利用文本和视觉线索,从中挖掘出困难负样例,并且能够自适应地确定它们对训练损失的影响;同时,通过构建部分有序三元组样本来模拟细粒度语义相似性,以提高文本 - 视频检索的性能。
Sep, 2023
本文提出了一种基于 transformer 和 triplet loss 的 cross-modal retrieval 模型来解决 human motion sequences 和 text 之间的检索问题,并提出了一种新的 MildTriple Loss 来减少 semantic conflicts 的影响,经实验证明,在 HumanML3D 和 KIT Motion-Language 数据集上具有较高的检索召回率。
May, 2023
用卷积神经网络将每个音轨映射到一个嵌入向量,并在嵌入空间中最小化覆盖对的距离,同时在非覆盖下最大化,以检测音频文件是否嵌入其目录中的音乐内容,同时提出了两种改进的方法来提高模型在困难情况下的准确性。
Oct, 2019
本文提出了一种新的多模式推广零样本学习方法,使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐,使用交叉模态解码器和组合三元组损失,在多模态设置中来执行零样本学习,实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。
May, 2020
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。
Jan, 2020
该论文提出了一种新颖的深度学习算法,通过单流网络和新的损失函数来实现音频和视觉信息的联合表示,并使用类中心对共享的深层潜在空间表示进行表征,以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估,在跨模式验证和匹配方面实现了最先进的性能,验证了该技术在跨模式生物认证应用中的有效性。
Sep, 2019
我们提出了 TripletMix,一种新的方法来解决多模态数据增强在 3D 理解中的问题,通过混合增强的原则同时增强文本、图像和点云三种模态数据,从而提高模型的跨模态理解能力和泛化能力。
May, 2024
本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术,我们提高了距离度量学习方法的性能,并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时,我们将广义端到端损失(GE2E)扩展到多模态输入,并证明其在音视频领域可以达到竞争性的性能。最后,我们引入了一种非同步音视频采样的随机策略,该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平,并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率(EER),据我们所知,这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。
Sep, 2023