VoxCeleb:一个大规模的说话人识别数据集
本文介绍了一个大规模的音频 - 视觉说话人识别数据集,用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份,并展示出比以前的成果更高的性能表现。
Jun, 2018
本文介绍了 CN-Celeb 数据集,它是一个大规模的演讲者识别数据集,收集了来自 1000 个中国名人的超过 130,000 个话语,覆盖了现实世界中的 11 个不同流派,并表明在实际情况下,现有技术的性能可能比预期的要差得多。
Oct, 2019
VoxCeleb-ESP 是一个新的说话人识别数据集,包含 160 位西班牙名人,涵盖了各个年龄组和地理区域,提供了两个说话人辨识任务的试验列表,并伴有基于跨语言评估的 ResNet 预训练模型,初步结果表明 VoxCeleb-ESP 在说话人识别方面的复杂性与原始且更大规模的英语数据集 VoxCeleb 相当。VoxCeleb-ESP 为西班牙语提供了一个全面且多样化的说话人识别基准数据集。
Dec, 2023
本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中,从而显著减少注释视频所需的时间。通过这种方式,研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。
Jul, 2020
该研究探究流行的说话人识别模型在电影片段中的性能,收集了一组新的具有挑战性的说话人识别数据集 VoxMovies,比当前数据集 VoxCeleb 更加具有挑战性,提出了领域自适应评估集,展示了简单的领域自适应模型能够提高性能,但仍有很大的改进空间。
Oct, 2020
利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集,用于训练和评估音频识别模型。使用图像分类算法,过滤环境噪声,创建 VGGSound 数据集,并研究了各种卷积神经网络架构和聚合方法,以建立新数据集的音频识别基线。
Apr, 2020
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020
通过对话者识别中未使用的 ' 视频 ' 信息进行环境对抗学习框架,我们成功实现了能够在训练期间有效学习讲话者判别性和环境不变嵌入的网络,该方法在 VoxCeleb 数据集上得到验证,证明基准测试中的性能显著提高。
Oct, 2019
本文介绍了 CelebV-Text 数据集,这是一个大规模、多样化且高质量的面部文本 - 视频对数据集,旨在促进面部文本到视频生成任务的研究,通过综合统计分析视频、文本和文本视频相关性,证明了 CelebV-Text 数据集的优越性和潜力,并通过广泛的自我评估显示了 CelebV-Text 的有效性和潜力。
Mar, 2023
介绍了 VoxPopuli,它是一个大规模的多语种语音语料库,提供包含 23 种语言的 100K 小时未标记语音数据,以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。
Jan, 2021