- 自监督对比学习中的空间声音事件表征探索
通过多通道对比学习框架(MC-SimCLR),本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示,MC-SimCLR 能够在事件分类和声音定位等下游任务中提 - CVPR音频到视觉潜在对齐的声音转视觉场景生成
本文提出了一种通过声音生成场景图像的方法,采用了深度学习等技术,结合声音定位和跨模态信息对齐来提高图像生成质量,并在相关数据集上得到了较好结果。
- MM利用变换不变性和等变性进行自监督声音定位
提出一种简单而有效的自监督框架,用于音频 - 视觉表示学习,以定位视频中的声音源。通过系统地研究数据增强的效果,揭示出数据增强的组成对学习有用的表示起到了至关重要的作用,并且实验证明了该模型在两个声音定位基准测试上显著优于以前的方法。
- WWWL3DAS21 Challenge: 机器学习用于 3D 声音信号处理
L3DAS21 挑战是鼓励和促进关于 3D 音频信号处理的机器学习合作研究,特别关注于 3D 语音增强(SE)和 3D 声音定位和检测(SELD)。此挑战提供了一个 65 小时的 3D 音频数据集和用于数据使用和提交结果的 Python A - CVPR艰难的方式本地化视觉音效
本文主要讲述了如何通过训练神经网络来定位视频中可见的声源,采用对图像难样本强化学习的方法以提升定位精度。同时,作者还介绍了一个新的数据集 VGG-Sound Source benchmark,并展示了该算法在其上的最先进性能。
- 迭代对比学习的无监督声音定位
本文提出了一种无需数据注释的迭代对比学习框架,用于声音定位任务,在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签,并通过迭代策略逐渐促进声源的定位。实验结果表明,该框架在声音定位任务上表现良好,优于现有的无监督和弱监督方法。
- ECCV从粗定位到精确定位的多声源定位
我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题,该方法能够有效地将声音与特定的视觉来源进行对齐。
- 课程视听学习
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还 - 学习在视觉场景中定位声源:分析与应用
本项研究提出一种基于双流网络的无监督算法,用于在视觉场景中定位声源,并针对该算法所存在的误差问题通过半监督学习进行修正,从而增强了算法的可靠性和泛化性。
- 动静之声
本论文提出了一种基于物体运动和振动的声音定位和分离系统,其中包含一个可学习的、端到端的模型 Deep Dense Trajectory(DDT)和一个课程学习策略,其与之前依赖于视觉外观提示的模型相比,在从大量未标记的视频中捕获音频 - 视 - NIPS360° 视频自监督空间音频生成
通过使用端到端可训练的神经网络,我们的方法根据音频和 360 度视频帧的多模态分析,将由 360 度视频相机记录的单声道音频转换为空间音频,并从中分离和定位单独的声源于观看球上,因此通过我们的方法,仅使用 360 度视频和单声道音轨就可以推 - CVPR学习在视觉场景中定位声源
本文提出一种新颖的无监督学习算法,可以通过观察声音和视觉场景对来仅仅聚焦声音源,在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.