深度音视频学习综述
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
Apr, 2021
探索了音视频流之间对应关系,并提出了利用该信息实现的自我监督视听学习任务,结果表明该方法成功解决了问题,并展现出良好的视听表征,可以将其应用于声音分类、物体定位和细粒度识别任务。
May, 2017
本文系统综述了基于深度学习的音视频语音增强和分离技术,特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时,还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法,并介绍了常用的音视频数据集和评估方法。
Aug, 2020
本研究通过利用深度生成对抗训练解决了跨模态音频 - 视觉生成的问题,使用条件生成对抗网络实现了音乐表演的跨模态音频 - 视觉生成,并探索了音频和视觉信号的不同编码方法以及基于乐器和姿势的生成情景,并且进行了分类和人工评估实验,证明了该模型可以在很大程度上从一个模态(音频 / 视觉)生成另一个模态(视觉 / 音频),并提供了未来研究所需的数据集和设计选项。
Apr, 2017
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。
Jan, 2020
本文介绍了一种在临床环境中的音频 - 视觉建模方法,提供了一种无需人工专家标注的学习医学表征的解决方案,通过只有语音音频作为参考,可以定位超声成像中感兴趣的解剖区域。在大规模临床多模式超声视频数据集上的实验评估表明,该自我监督方法学习到的良好可迁移的解剖表征可以提高自动化的下游临床任务的性能,甚至超过完全监督的解决方案。
Oct, 2023
本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示,通过利用新的多模态标记行动识别数据集,并针对性地训练音频深度学习模型,从视觉和声学图像方面实现知识蒸馏,以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。
Apr, 2019