利用立体声音进行自监督的移动车辆跟踪
本文提出了一种基于音视频数据的无监督学习目标检测器的方法,采用自监督框架和对比目标优化设计,实现了不用监督方法到非常好的检测效果,还可以泛化扩展到包括乐器、飞机和猫等生活常见物体的检测。
Apr, 2021
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020
本项研究提出一种基于双流网络的无监督算法,用于在视觉场景中定位声源,并针对该算法所存在的误差问题通过半监督学习进行修正,从而增强了算法的可靠性和泛化性。
Nov, 2019
该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统,旨在解决自主机器人理解周围环境的问题。
Jul, 2020
提出了一种新颖的自监督 MM-DistillNet 框架,利用多个教师的多样性模态(包括 RGB、深度和热成像)来同时利用互补线索并将知识蒸馏到单一的音频学生网络中,而且还引入了一种新的自监督假设任务来使我们不依赖于人工标注。该方法在探测物体方面具有优越性能,即使在移动的情况下也能使用声音来检测多个物体。
Mar, 2021
本研究提出了一种两阶段学习框架,利用单一场景下的候选声音定位结果来学习鲁棒的对象表示,并通过引用预学习的对象知识生成了类感知对象本地化映射,在各种混音声音场景下选择声音和视觉对象类别分布的匹配,其中视听一致性被视为自我监督信号。实验结果表明,我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。
Oct, 2020
本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构,实现音频和视觉之间的信息检索和图像中声音对象的准确定位,同时探究了基于 AVC 任务的网络架构设计方法,并与此相关的数据准备问题进行了讨论。
Dec, 2017
使用自监督学习的方法,提出在音频流和视觉流中,通过匹配空间信息识别声源位置,通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估,在音视频任务中得到比监督学习和其他自监督方法更高的性能,并证明了在球面导向视屏中拓展我们的自监督方法。
Jun, 2020