CVPRJun, 2020

左右分辨:学习视听的空间对应关系

TL;DR使用自监督学习的方法,提出在音频流和视觉流中,通过匹配空间信息识别声源位置,通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估,在音视频任务中得到比监督学习和其他自监督方法更高的性能,并证明了在球面导向视屏中拓展我们的自监督方法。