VoxCeleb：一个大规模的说话人识别数据集

Jun, 2017

VoxCeleb：一个大规模的说话人识别数据集

VoxCeleb: a large-scale speaker identification dataset

Arsha Nagrani, Joon Son Chung, Andrew Zisserman

TL;DR本文介绍了一种基于计算机视觉技术的全自动管道，用于从开源媒体中创建一个大规模的必须文本无关语音识别数据集，并在其上应用和比较不同的演讲者识别技术以建立性能基线。

Abstract

Most existing datasets for speaker identification contain samples obtained under quite constrained conditions, and are usually hand-annotated, hence limited in size. The goal of this paper is to generate a large scale text-independent →

speaker identification large scale dataset computer vision convolutional neural network real world utterances

发现论文，激发创造

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018

CN-CELEB：一个具有挑战性的中文说话人识别数据集

本文介绍了 CN-Celeb 数据集，它是一个大规模的演讲者识别数据集，收集了来自 1000 个中国名人的超过 130,000 个话语，覆盖了现实世界中的 11 个不同流派，并表明在实际情况下，现有技术的性能可能比预期的要差得多。

Oct, 2019

Voxceleb-ESP：从声音中检测西班牙名人的初步实验

VoxCeleb-ESP 是一个新的说话人识别数据集，包含 160 位西班牙名人，涵盖了各个年龄组和地理区域，提供了两个说话人辨识任务的试验列表，并伴有基于跨语言评估的 ResNet 预训练模型，初步结果表明 VoxCeleb-ESP 在说话人识别方面的复杂性与原始且更大规模的英语数据集 VoxCeleb 相当。VoxCeleb-ESP 为西班牙语提供了一个全面且多样化的说话人识别基准数据集。

Dec, 2023

野外演讲者日志检测

本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中，从而显著减少注释视频所需的时间。通过这种方式，研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。

Jul, 2020

电影中的说话人验证

该研究探究流行的说话人识别模型在电影片段中的性能，收集了一组新的具有挑战性的说话人识别数据集 VoxMovies，比当前数据集 VoxCeleb 更加具有挑战性，提出了领域自适应评估集，展示了简单的领域自适应模型能够提高性能，但仍有很大的改进空间。

Oct, 2020

VGGSound：大规模音频视觉数据集

利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。

Apr, 2020

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

探讨 VoxCeleb：环境不变语音说话者识别

通过对话者识别中未使用的 ' 视频 ' 信息进行环境对抗学习框架，我们成功实现了能够在训练期间有效学习讲话者判别性和环境不变嵌入的网络，该方法在 VoxCeleb 数据集上得到验证，证明基准测试中的性能显著提高。

Oct, 2019

CelebV-Text：一個大規模的人臉文字視頻數據集

本文介绍了 CelebV-Text 数据集，这是一个大规模、多样化且高质量的面部文本 - 视频对数据集，旨在促进面部文本到视频生成任务的研究，通过综合统计分析视频、文本和文本视频相关性，证明了 CelebV-Text 数据集的优越性和潜力，并通过广泛的自我评估显示了 CelebV-Text 的有效性和潜力。

Mar, 2023

VoxPopuli: 面向表示学习、半监督学习和解释的大规模多语种语音语料库

介绍了 VoxPopuli，它是一个大规模的多语种语音语料库，提供包含 23 种语言的 100K 小时未标记语音数据，以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。

Jan, 2021