野外说话人识别

May, 2022

Speaker Recognition in the Wild

Neeraj Chhimwal, Anirudh Gupta, Rishabh Gaur, Harveen Singh Chadha, Priyanshi Shah...

TL;DR本研究提出了一种用于在声音数据源中识别演讲者数量并确定属于每位演讲者的音频的流程，并引入了聚类纯度和聚类唯一性两个指标来评估其准确性。该方法可用于印欧语系语音识别的数据预处理。

Abstract

In this paper, we propose a pipeline to find the number of speakers, as well as audios belonging to each of these now identified speakers in a source of audio data where number of speakers or speaker labels are not known a priori. We used this approach as a part of our Data Preparation

speaker identification audio data indic languages cluster purity cluster uniqueness

发现论文，激发创造

ASR2K：2 千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用 n-gram 统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在 1909 种语言上进行了测试。

Sep, 2022

通过无监督聚类提高端到端语音识别的公平性和鲁棒性

本文提出了使用保护隐私的方法来提高自动语音识别的公平性和鲁棒性，通过利用无监督学习从发音级别语音特征中提取得到语音聚类中心作为训练模型的额外特征，实现对任何人群的提高，特别是在不同口音情境下显示出明显改进。

Jun, 2023

野外演讲者日志检测

本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中，从而显著减少注释视频所需的时间。通过这种方式，研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。

Jul, 2020

探究面向跨语言低资源 ASR 评估的数据分割策略

本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能，揭示不同说话者数据选取对模型性能的影响，表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。

Aug, 2022

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

构建大规模性别与年龄平衡的说话人语料库的半自动方法：说话人辨识与日程管理的实用性

本研究提出了一种半自动化的方法，用于创建一个按照 32 个类别（2 种性别、4 个年龄范围和 4 个录制时期）平衡了发言人年龄、性别和录制时期的历时语料库。该方法通过自动处理管道，包括语音检测、背景音乐和重叠语音去除以及说话者分离，大大减少了人工处理，显示出了创建大型目标说话者语料库的潜力。

Apr, 2024

未知发言者数量的递归语音分离

该论文提出了一种用于未知扬声器数量的单通道扬声器非特定多扬声器语音分离方法，其中引入了排列不变训练，使模型具有递归性，并且通过使用基于深度神经网络的分类器进行递归分离来更准确地估计混音中扬声器数量，从而在 WSJ0-2mix 和 WSJ0-3mix 数据集上实现了最先进的结果，具有可扩展性和准确性。

Apr, 2019

针对未知说话人识别的说话人专属阈值设定

该研究引入了一种新的、具有通用性的说话者特定阈值技术，通过认可音频样本中的说话者来识别未知说话者的虚假身份，还证明了算法的可推广性。

Jun, 2023

研究说话人分谱的置信度估计方法

研究论文通过对扬声器判别系统的分析，探讨了生成对下游系统有竞争力且能够在置信度得分最低的部分区间内隔离约 30% 扬声器判别错误的多种方法。

Jun, 2024

探究语言识别模型的性能：超越简单的错误统计

研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现，考察其对录音和语音单元的性能，并且提出评估指标的局限性和可能导致算法偏差的问题。

May, 2023