自监督学习用于音视频发言人分离

Feb, 2020

自监督学习用于音视频发言人分离

Self-supervised learning for audio-visual speaker diarization

Yifan Ding, Yong Xu, Shi-Xiong Zhang, Yahuan Cong, Liqiang Wang

TL;DR提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Abstract

speaker diarization, which is to find the speech segments of specific speakers, has been widely used in human-centered applications such as video conferences or human-computer interaction systems. In this paper, we propose a self-supervised audio-video synchronization learning method t

speaker diarization self-supervised learning triplet loss multinomial loss audio-video corpus

发现论文，激发创造

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

基于时空贝叶斯融合的音视频说话人分离

本文介绍了一种音视频 “位置时间标记” 模型，其中多人视觉跟踪与多重语音源定位相结合，通过一种音视频融合方法对话音频信号进行了分离，从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号，解决了多人语音辨别问题。

Mar, 2016

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

野外演讲者日志检测

本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中，从而显著减少注释视频所需的时间。通过这种方式，研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。

Jul, 2020

基于音视频对应的自监督目标检测

本文提出了一种基于音视频数据的无监督学习目标检测器的方法，采用自监督框架和对比目标优化设计，实现了不用监督方法到非常好的检测效果，还可以泛化扩展到包括乐器、飞机和猫等生活常见物体的检测。

Apr, 2021

通过联合视听自监督从原始音频中学习语音表示

该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法，从而为音频视觉语音的自监督学习提供了潜力。

Jul, 2020

跨模态监督学习视频中的活动发言者检测

本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Mar, 2016