EARS: 一个用于语音增强和去混响的各向同性全频通话语音数据集的基准测试

Jun, 2024

EARS: 一个用于语音增强和去混响的各向同性全频通话语音数据集的基准测试

EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation

Julius Richter, Yi-Chiao Wu, Steven Krenn, Simon Welker, Bunlong Lay...

TL;DR发布了 EARS（Expressive Anechoic Recordings of Speech）数据集，包含来自不同背景的 107 位说话者，总计 100 小时的干净、无混响的语音数据。数据集涵盖了多种不同的讲话风格，包括情感性语音、不同的阅读风格、非语言声音和自由对话式语音。通过一组仪器度量评估了数据集上的各种语音增强和去混响方法，并对语音增强任务进行了 20 个参与者的听力测试，优选了一种生成方法。此外，我们还引入了一个盲测试集，用于自动在线评估上传数据。数据集下载链接和自动评估服务器可以在网上找到。

Abstract

We release the EARS (Expressive Anechoic Recordings of speech) dataset, a high-quality speech dataset comprising 107 speakers from diverse backgr

ears dataset speech diverse backgrounds speech enhancement dereverberation

发现论文，激发创造

EasyCom：噪声环境下支持易于交流算法的增强现实数据集

本文发现，缺少可用于训练和测试信号处理和机器学习算法的具有代表性的数据集，介绍并放出了一个包含超过 5 小时多模态数据的数据集，以便建立多模态 AR 方案以减少鸡尾酒会效应。

Jul, 2021

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

SD-Eval: 口语对话理解的基准数据集超越文本

为了评估和改进大型语言模型在口语对话理解和生成方面的能力，我们提出了 SD-Eval 标准数据集，该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语，总计 8.76 个小时的语音数据，并通过客观和主观评估方法，以及基于大型语言模型的指标，证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。

Jun, 2024

一个真实房间冲激响应数据集的构建和评估

该论文提出了一个真实空间脉冲响应、背景噪声和重传音频数据的数据集，并在两组自动语音识别实验中验证了其应用价值，结果表明精心挑选的有限数量的真实空间脉冲响应与大量人工生成的响应相比，能够取得同等优秀的 ASR 结果；同时，该论文介绍了脉冲响应数据的处理过程和音频数据增广技术，并开放了这个数据集的非限制性许可证。

Nov, 2018

Earnings-21: 野外 ASR 的实用基准

本文提出了一个 39 小时的包含来自不同金融领域的密集实体语音的 Earnings-21 语料库，用于 ASR 系统的基准测试，并针对命名实体识别进行特殊关注。通过我们最近发布的 fstalign 工具，提供了每个模型在不同划分下的识别能力的坦率分析。分析发现，某些 NER 类别的 ASR 准确率很低，存在着显著的文本理解和使用障碍。Earnings-21 能够评估学术和商业 ASR 系统，使得实体塑造和 WER 在真实世界音频上的进一步研究成为可能。

Apr, 2021

民间演讲：商业应用的大规模多元化英文语音识别数据集

本文介绍一个基于互联网搜集的，供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集，其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率，并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。

Nov, 2021

ASR Bundestag：德国大规模政治辩论数据集

ASR Bundestag 是一个关于德语自动语音识别的数据集，包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。

Feb, 2023

Earnings-22：野外口音实践基准

本文介绍了一个收集英语盈利电话会议的语料库，旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准，通过 4 个商业模型的比较，研究了地区口音对模型表现的影响，以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。

Mar, 2022

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

MAVD：首个带深度信息的开放式大规模普通话视听数据集

这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。

Jun, 2023