Spatial LibriSpeech：一个用于空间音频学习的增强数据集

Aug, 2023

Spatial LibriSpeech：一个用于空间音频学习的增强数据集

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

Miguel Sarabia, Elena Menyaylenko, Alessandro Toso, Skyler Seto, Zakaria Aldeneh...

TL;DR我们提出了 Spatial LibriSpeech，这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练，并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial LibriSpeech。为了证明我们数据集的实用性，我们对四个空间音频任务进行模型训练，结果 3D 源定位中的中值绝对误差为 6.60°、距离为 0.43m、T30 为 90.66ms，DRR 估计为 2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力，例如在 TUT 声事件 2018 的 3D 源定位中的中值绝对误差为 12.43°，ACE 挑战中 T30 估计为 157.32ms。

Abstract

We present spatial librispeech, a spatial audio dataset with over 650 hours of 19-channel audio, first-order ambisonics, and optional distractor noise. →

spatial librispeech spatial audio dataset machine learning model training source position 3d source localization

发现论文，激发创造

Spatial HuBERT：基于多通道音频的自监督单讲话者空间语音表征学习

Spatial HuBERT 是一种自我监督的语音表示模型，通过使用多通道音频输入学习单个说话者在潜在嘈杂环境中的声学和空间信息，可以在多种空间下游任务中优于最先进的单通道语音表示，在混响和嘈杂环境中表现出色。

Oct, 2023

Libri-Light: 一项有限或无监督 ASR 基准测试

提供了一个适用于有限或无监督语音识别训练的口语英语音频集合，其中包含来自 LibriVox 项目的开源有声读物，已使用语音活动检测进行段分割，并标记有 SNR，说话者 ID 和流派描述，同时提供了基线系统和评估指标，分为三个设置进行评估。

Dec, 2019

360° 视频自监督空间音频生成

通过使用端到端可训练的神经网络，我们的方法根据音频和 360 度视频帧的多模态分析，将由 360 度视频相机记录的单声道音频转换为空间音频，并从中分离和定位单独的声源于观看球上，因此通过我们的方法，仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。

Sep, 2018

具有对应分类器的自监督音频空间定位

本文介绍了一种使用自监督网络进行音频空间化的方法，并使用辅助分类器和大规模视频数据集来提高性能，取得了较好的实验结果。

May, 2019

Libri-Adapt: 用于无监督领域自适应的新语音数据集

本文介绍了一个新的数据集 Libri-Adapt，它是 LibriSpeech 语料库的扩展，包含来自 72 个不同领域的英语语音，可以支持语音识别模型的无监督领域自适应研究，并提供基线结果来量化这些领域转移对 Mozilla DeepSpeech2 ASR 模型的影响。

Sep, 2020

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

Spatial Scaper：模拟和增强逼真室内声景用于声事件定位和检测的库

SpatialScaper 是一种用于模拟和增强 SELD 数据的库，可以通过模拟虚拟房间的参数化放置（包括移动）前景和背景声源，从而训练出具有更好性能的鲁棒 SELD 模型。

Jan, 2024

左右分辨：学习视听的空间对应关系

使用自监督学习的方法，提出在音频流和视觉流中，通过匹配空间信息识别声源位置，通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估，在音视频任务中得到比监督学习和其他自监督方法更高的性能，并证明了在球面导向视屏中拓展我们的自监督方法。

Jun, 2020

L3DAS21 Challenge: 机器学习用于 3D 声音信号处理

L3DAS21 挑战是鼓励和促进关于 3D 音频信号处理的机器学习合作研究，特别关注于 3D 语音增强（SE）和 3D 声音定位和检测（SELD）。此挑战提供了一个 65 小时的 3D 音频数据集和用于数据使用和提交结果的 Python API。本报告旨在提供参加 L3DAS21 挑战所需的所有信息，包括 L3DAS21 数据集的详细信息，挑战任务和基线模型。

Apr, 2021

MLS: 一个大规模的多语言语音研究数据集

本文介绍了 Multilingual LibriSpeech（MLS）数据集，这是一个大型的多语言语音研究语料库，包括 8 种语言，以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供，我们相信它将为 ASR 和 TTS 研究开辟新的途径。

Dec, 2020