LibriWASN: 面向异步录音设备的会议分离、分辨和识别数据集
提供了一个适用于有限或无监督语音识别训练的口语英语音频集合,其中包含来自 LibriVox 项目的开源有声读物,已使用语音活动检测进行段分割,并标记有 SNR,说话者 ID 和流派描述,同时提供了基线系统和评估指标,分为三个设置进行评估。
Dec, 2019
本文介绍了一种解决训练数据与测试数据相似度低导致模型泛化性能下降的方法:设计了一个基于 LibriSpeech 的语音混合数据集 LibriMix,证明使用 LibriMix 训练的深度学习模型,在各种条件下比使用 WHAM! 训练的模型表现更优,为实现更真实的对话场景语音分离进行了探索。
May, 2020
本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。
Dec, 2019
本文介绍了一个新的数据集 Libri-Adapt,它是 LibriSpeech 语料库的扩展,包含来自 72 个不同领域的英语语音,可以支持语音识别模型的无监督领域自适应研究,并提供基线结果来量化这些领域转移对 Mozilla DeepSpeech2 ASR 模型的影响。
Sep, 2020
通过在移动设备上使用文本数据进行语言模型的个性化,提高了针对该用户的语音识别性能。利用 LibriSpeech 语料库和 Project Gutenberg 的个性化文本,我们对 55 个用户的文字 - 语音配对数据进行了实验,并提供了 UserLibri 数据集以帮助未来个性化研究。实验结果表明,在流媒体和非流媒体模型中,我们能够降低每个用户的平均单词错误率,其中在流媒体情况下,难度较大的测试集错误率下降了 2.5%
Jul, 2022
我们提出了 Spatial LibriSpeech,这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练,并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial LibriSpeech。为了证明我们数据集的实用性,我们对四个空间音频任务进行模型训练,结果 3D 源定位中的中值绝对误差为 6.60°、距离为 0.43m、T30 为 90.66ms,DRR 估计为 2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力,例如在 TUT 声事件 2018 的 3D 源定位中的中值绝对误差为 12.43°,ACE 挑战中 T30 估计为 157.32ms。
Aug, 2023
对在多方会议场景下的口语识别(SA-ASR)中的发言人进行的比较研究中,通过三种不同的方法进行了评估。结果表明,引入单词级别的划分模型可以有效降低时戳对准错误。同时,采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。
Mar, 2022
ASR Bundestag 是一个关于德语自动语音识别的数据集,包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。
Feb, 2023
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020
该研究提出了一种隐私保护的工作流程,通过集成语音活动检测(VAD)、自动语音识别(ASR)等技术,提高对受保护语言音频数据的注释效率。该流程旨在为那些使用英语等共同语言进行元语言评论和提问的语音录音解决元语言转录上的问题。研究结果表明匹配得当的这种方法可以在保持数据私密原则的前提下加速记录的元语言转录,并有效减少了数据浏览和筛选的时间。
Apr, 2022