BriefGPT.xyz
Ask
alpha
关键词
sound separation
搜索结果 - 6
基于文本的任意声音分离
本研究提出了一种方法,通过结合两种模型,即 SoundWords 和 SoundFilter 模型,以在共享的文本 - 音频表示法中定义的调节向量为基础,将目标声音源从单通道混合中分离出来,并证明了此多模式训练方法可以提高 SoundFil
→
PDF
2 years ago
稀疏、高效、语义混合不变性训练:驯服野外无监督音频分离
本研究提出了新的损失函数和快速的近似算法,解决了 MixIT 方法过度分离以及计算复杂度限制输出源数量的问题,实验证明所提出的算法可以在更多的输出源数量下带来更好的性能。
PDF
3 years ago
ICLR
使用 AudioScope 探索野外:屏幕上声音的无监督音频 - 视觉分离
本研究提出了一种名为 AudioScope 的音频 - 视觉分离框架,在无监督培训下从自然视频中分离屏幕上的声源。使用混合不变训练(MixIT)对混合物进行训练并在电影与音频特征之间调用注意力来识别音频 - 视觉相似性并抑制屏幕外声音。
PDF
4 years ago
ECCV
从粗定位到精确定位的多声源定位
我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题,该方法能够有效地将声音与特定的视觉来源进行对齐。
PDF
4 years ago
课程视听学习
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还
→
PDF
4 years ago
动静之声
本论文提出了一种基于物体运动和振动的声音定位和分离系统,其中包含一个可学习的、端到端的模型 Deep Dense Trajectory(DDT)和一个课程学习策略,其与之前依赖于视觉外观提示的模型相比,在从大量未标记的视频中捕获音频 - 视
→
PDF
5 years ago
Prev
Next