本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式,并利用预训练的 MuSimNet,OpenL3,MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中,通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果,验证了 VM-NET 的有效性。
Apr, 2021
本文介绍了一种通过使用音频视觉神经处理技术解决从视频中分离个别语音信号的方法,提出了使用交叉模态亲和力网络(CaffNet)解决由于传输延迟不匹配或抖动引起的两种模态之间的帧不连续问题,并在复杂光谱领域上扩展该模型,实验结果表明此方法在各种数据集上优于传统方法,具有在实际场景中的优势。
Mar, 2021
本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构,实现音频和视觉之间的信息检索和图像中声音对象的准确定位,同时探究了基于 AVC 任务的网络架构设计方法,并与此相关的数据准备问题进行了讨论。
Dec, 2017
使用 S-DCCA 算法构建跨模态音乐视频检索模型,其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块,使得得到的局部音频摘要能够很好地代表整个音频内容,构建的深度学习模型实现了音频和视频语义的跨模态学习,从而实现了跨模态情感相似的音乐视频检索,并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。
Aug, 2019
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的 VGG-Sound Sync 数据集测试。结果表明,我们的模型优于先前的最先进技术。
Dec, 2021
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
研究视频配乐中的跨模式推荐问题,使用自我监督系统学习音乐和视频间的内容关联,提出了结构感知推荐方法,在训练与推断过程中,使用语义片段和不同的排序指标和分割方法来显著提高系统性能。
Jun, 2023
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020