本文介绍了 DIRHA-ENGLISH 多麦克风语料库,其中包括 12 名美国和英国的英语母语者,研究了语音处理、DNN 和远程语音识别等方面的基线结果。
Oct, 2017
本文探讨使用不同领域的双语料库进行音频识别训练的数据增强方法,通过使用 Tacotron 合成语音的方式,来提升语音识别的性能。研究表明,使用合成材料进行数据增强可以实现对语音识别性能的提高,但是自然语音和合成语音训练识别器的性能仍有很大的差距。
Sep, 2019
该论文介绍了第五届 CHiME 挑战赛,旨在通过与语言处理、信号处理和机器学习相结合的研究促进 ASR 技术的发展,其中考虑了远距离多麦克风对话 ASR 在真实家庭环境中的应用,收集了代表自然对话语音的数据,并记录了 6 个 Kinect 麦克风阵列和 4 个双耳式麦克风对的数据。
Mar, 2018
本文介绍了一个新的语音记录数据库,目的是支持关于语音控制系统(VCSs)的漏洞和保护研究。该数据库包含真实语音指令和被重放记录的指令,采集了现代语音助手开发套件,记录于不同环境条件下,不同形式的背景噪声和发言人与设备之间的相对位置。据我们所知,这是首个公开可用的数据库,专门为各种条件和环境下最先进的语音控制系统的保护设计,以抵抗各种重放攻击。
Apr, 2019
本文研究交叉语料库数据补充和数据扩充对匹配条件和失配条件下的语音情感识别模型性能的影响,实验结果表明在失配条件下,使用混合语料库的模型比单一语料库训练更稳定,而且数据扩充对失配条件的提升更为明显。
Jan, 2022
本研究提出一种可同时利用有标注数据和非标注数据进行连续语音分离模型训练的三阶段训练方案,并将其应用于任意麦克风阵列采集的多通道语音数据上取得了较好效果。
Apr, 2022
本文重新发布三个标准的 ASR 语料库,用于长篇 ASR 研究,并研究了训练与测试数据不匹配问题,通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。
Sep, 2023
本文发现,缺少可用于训练和测试信号处理和机器学习算法的具有代表性的数据集,介绍并放出了一个包含超过 5 小时多模态数据的数据集,以便建立多模态 AR 方案以减少鸡尾酒会效应。
Jul, 2021
在搜索和救援环境中,语音识别面临嘈杂和残音扰动的问题;作者创建了名为 RescueSpeech 的语音数据集并公开发布,但目前使用最先进的方法仍无法达到令人满意的性能水平。
Jun, 2023
挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法,在虚拟环境中定位声源到具体位置,以克服数据不足的问题,特别是在事后定位中。通过音频变换器谱图方法,我们达到了 0.786 ± 0.0136 的 F1 得分。
Apr, 2024