视觉指示音
该论文表明,可以使用环境声音作为学习视觉模型的监督信号,他们通过训练卷积神经网络预测与视频帧相关联的声音的统计摘要的过程,展示出网络可以学习传达有关物体和场景的表示,并在几个识别任务上评估了该表示,发现其性能与其他最先进的无监督学习方法相当。通过视觉化,他们还显示网络学习选择通常与特征声音相关联的对象的单元。
Aug, 2016
该研究旨在利用基于学习的方法生成视频图像相应的声音,以此实现虚拟现实应用或为盲人提供图像的辅助访问。该研究表明,分别利用视觉图像作为输入,生成的声音是相当真实的,并且与视觉输入具有良好的时间同步性。
Dec, 2017
用环境声音作为监督信号,训练了一个卷积神经网络以预测视频帧所关联的声音的统计摘要,进而学习到了能够传达关于物体和场景信息的表示,表现与其他最先进的无监督学习方法可比。
Dec, 2017
本文提出了一种基于物理驱动扩散模型的冲击声合成方法,该方法结合了视频内容和物理参数作为先验信息,从而可以高保真地合成出静音视频中的冲击声,并且能够灵活地进行声音编辑。
Mar, 2023
本论文提出了一种基于物体运动和振动的声音定位和分离系统,其中包含一个可学习的、端到端的模型 Deep Dense Trajectory(DDT)和一个课程学习策略,其与之前依赖于视觉外观提示的模型相比,在从大量未标记的视频中捕获音频 - 视觉信号的内在一致性方面有所提升,以分离出同类乐器的二重奏声音分量,这是一个挑战性的问题。
Apr, 2019
通过使用大量的野外未标记的声音数据,我们利用视觉和声音之间的自然同步,使用两百万个未标记的视频学习声学表示,提出了一种学生 - 教师训练过程,将视觉知识转移到声音模态中,为声音场景 / 对象分类的标准基准提供了显着的性能提升,即使没有地面真实标签,声音网络自动形成一些高级语义。
Oct, 2016
本研究提出了一种音频模型,用于主体中心的动作识别,通过轻量化的架构,在视觉基础的标准数据集上取得了有竞争力的动词分类结果(34.26% 准确率)
Jun, 2019
通过结合声音和视觉信号与物理学知识,配备了摄像头和麦克风的机器人代理,使用三维虚拟环境研究多模式物体定位。通过生成大规模的数据集和开发一套根据模仿学习,强化学习和模块化计划进行分析,为解决这一挑战迈出了第一步。
Jul, 2022
该论文提出了一个新的嵌入方案 (sound-word2vec),用于学习基于声音的专业词嵌入。 这些嵌入的使用在文本检索和电影制作等任务中表现出了很好的效果,并提出来了许多新的声学和拟声词上的依赖关系。
Mar, 2017
研究团队构建了一个大规模的现实物体撞击声音数据集(RealImpact),并使用该数据集作为参照标准来校准仿真模型与真实模型之间的差距,同时还证明了该数据集的可用性来测试声学和视听学习。
Jun, 2023