使用 WavLM 预训练特征进行重叠语音和性别检测

Sep, 2022

使用 WavLM 预训练特征进行重叠语音和性别检测

Overlapped speech and gender detection with WavLM pre-trained features

Martin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier

TL;DR本文介绍了使用 WavLM 模型识别重叠语音和性别检测，以研究法国视听媒体中男女交互的表现差异，并使用 DIHARD III 和 ALLIES 语料库进行实验，得到了新的性能状态和高精度的实验结果。

Abstract

This article focuses on overlapped speech and gender detection in order to study interactions between women and men in french audiovisual media

overlapped speech gender detection french audiovisual media wavlm model dihard iii corpus

发现论文，激发创造

联合语音与重叠检测：多个音频设置和语音领域的基准测试

声活动和重叠演讲检测对于说话人分析是关键的预处理任务。本文提出了一个全面的新绩效基准，用于多种音频设置（单 / 多通道）和语音领域上的不同声活动和重叠演讲检测模型，并展示了联合训练这两项任务的独特架构在降低训练成本的同时能够获得与两个专门的声活动和重叠演讲检测系统相似的 F1 分数表现。

Jul, 2023

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

噪声环境中音频特征分析的 LSTM-CNN 网络

通过使用长短时记忆卷积神经网络（LSTM-CNN），本研究针对有噪音环境下的每帧音频数据，提取时间和 / 或频率相关的声音特征，从而估计同时活动的说话者数量和性别。在公共城市、工业环境、商场、展览会、工作场所和自然环境等各种情况下，使用了 19000 个男性、女性和背景噪音的音频样本进行了学习。该概念验证表明，在检测计数和性别方面，训练 / 验证均方误差（MSE）值约为 0.019/0.017，显示出有希望的性能。

Dec, 2023

广播新闻中新闻主题的自动分类：应用于性别偏见表达分析

通过计算框架介绍了对法国电视和广播新闻涵盖的主题中性别分配偏见的揭示。研究表明，在体育、政治和冲突等主题上，女性明显缺乏代表性，而在天气、广告和健康等主题上，女性的发言时间超过了整体平均水平。同时，私人和公共服务频道之间也存在表现差异。

Jul, 2024

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

自监督语音转文本系统中性别影响的研究

本研究使用法语作为研究语言，通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明，性别平衡的预训练模型不一定导致最佳结果，并且使用自监督模型作为特征提取器时，ASR 和 ST 的结果会遵循更复杂的模式。

Apr, 2022

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

WavLM：用于完整语音处理的大规模自监督预训练

本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Oct, 2021

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

多语言语音模型在自动语音识别中表现出性别性能差距

多任务、多语种模型在语音识别中的广泛应用，虽然适用于多种语言，但仍存在在性别间表现差异的问题。我们通过系统评估多语种 ASR 系统在性别表现差异上的问题，并发现了明显的性别差异。在 19 种语言的三个数据集上，我们使用两种流行的模型，跨越了七个语系。尽管在声调、说话速度等语音学变量方面没有显著差异，并且模型内部状态的分析显示探针性能与性别差异之间存在负相关。也就是说，在一个语言中更容易区分说话者性别时，模型更倾向于女性说话者。我们的研究结果表明，尽管多任务和多语种方面取得了很大进展，但性别间的差异问题仍未解决。我们提供了有价值的首批关于多语种 ASR 系统性别差距评估的见解。我们将所有代码和相关资料发布在此 https URL

Feb, 2024