视觉指示音

Dec, 2015

Visually Indicated Sounds

Andrew Owens, Phillip Isola, Josh McDermott, Antonio Torralba, Edward H. Adelson...

TL;DR本文提出了一种利用递归神经网络从无声视频中合成与物体相互作用产生的声音的算法，并且在 “真实或假的” 心理物理实验中证实了该模型产生的声音足够逼真，能够传达物质特性和物理相互作用的显著信息。

Abstract

Objects make distinctive sounds when they are hit or scratched. These sounds reveal aspects of an object's material properties, as well as the actions that produced them. In this paper, we propose the task of predicting what sound an object makes when struck as a way of studying

sound synthesis recurrent neural network material properties physical interactions psychophysical experiment

发现论文，激发创造

环境声音提供视觉学习的监督

该论文表明，可以使用环境声音作为学习视觉模型的监督信号，他们通过训练卷积神经网络预测与视频帧相关联的声音的统计摘要的过程，展示出网络可以学习传达有关物体和场景的表示，并在几个识别任务上评估了该表示，发现其性能与其他最先进的无监督学习方法相当。通过视觉化，他们还显示网络学习选择通常与特征声音相关联的对象的单元。

Aug, 2016

视觉到声音：在野外生成自然视频音频

该研究旨在利用基于学习的方法生成视频图像相应的声音，以此实现虚拟现实应用或为盲人提供图像的辅助访问。该研究表明，分别利用视觉图像作为输入，生成的声音是相当真实的，并且与视觉输入具有良好的时间同步性。

Dec, 2017

从声音学习视觉：环境声音辅助视觉学习

用环境声音作为监督信号，训练了一个卷积神经网络以预测视频帧所关联的声音的统计摘要，进而学习到了能够传达关于物体和场景信息的表示，表现与其他最先进的无监督学习方法可比。

Dec, 2017

基于物理学的扩散模型的视频冲击声合成

本文提出了一种基于物理驱动扩散模型的冲击声合成方法，该方法结合了视频内容和物理参数作为先验信息，从而可以高保真地合成出静音视频中的冲击声，并且能够灵活地进行声音编辑。

Mar, 2023

动静之声

本论文提出了一种基于物体运动和振动的声音定位和分离系统，其中包含一个可学习的、端到端的模型 Deep Dense Trajectory（DDT）和一个课程学习策略，其与之前依赖于视觉外观提示的模型相比，在从大量未标记的视频中捕获音频 - 视觉信号的内在一致性方面有所提升，以分离出同类乐器的二重奏声音分量，这是一个挑战性的问题。

Apr, 2019

从无标注视频中学习声音表征的 SoundNet

通过使用大量的野外未标记的声音数据，我们利用视觉和声音之间的自然同步，使用两百万个未标记的视频学习声学表示，提出了一种学生 - 教师训练过程，将视觉知识转移到声音模态中，为声音场景 / 对象分类的标准基准提供了显着的性能提升，即使没有地面真实标签，声音网络自动形成一些高级语义。

Oct, 2016

识别自我为中心物体交互，音频有多重要？

本研究提出了一种音频模型，用于主体中心的动作识别，通过轻量化的架构，在视觉基础的标准数据集上取得了有竞争力的动词分类结果（34.26% 准确率）

Jun, 2019

通过异步音视频整合发现落下的物体

通过结合声音和视觉信号与物理学知识，配备了摄像头和麦克风的机器人代理，使用三维虚拟环境研究多模式物体定位。通过生成大规模的数据集和开发一套根据模仿学习，强化学习和模块化计划进行分析，为解决这一挑战迈出了第一步。

Jul, 2022

基于声音的词嵌入学习方法：Sound-Word2Vec

该论文提出了一个新的嵌入方案 (sound-word2vec)，用于学习基于声音的专业词嵌入。这些嵌入的使用在文本检索和电影制作等任务中表现出了很好的效果，并提出来了许多新的声学和拟声词上的依赖关系。

Mar, 2017

RealImpact: 真实物体冲击声场数据集

研究团队构建了一个大规模的现实物体撞击声音数据集（RealImpact），并使用该数据集作为参照标准来校准仿真模型与真实模型之间的差距，同时还证明了该数据集的可用性来测试声学和视听学习。

Jun, 2023