为保障警方问责而开发语音处理流程
本文提出了一个自动语音识别后处理模型,旨在将不正确和嘈杂的 ASR 输出转换为可读的文本,并使用元数据提取语料库构建了一种任务特定的数据集,并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上,我们的模型在可读性感知 WER(RA-WER)上比基线模型提高了 13.26%,在 BLEU 度量上提高了 17.53%。人类评估还证明我们的方法可以生成比基线更易读的转录本。
Feb, 2021
优化使用演讲者归属自动语音识别(SA-ASR)系统在实际场景中,如 AMI 会议语料库,用于改进语音片段的演讲者分配的新颖研究,涉及语音活动检测(VAD)、发言者序列聚类(SD)和 SA-ASR 方面的流程。
Mar, 2024
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
提出了一种语音识别流程,可以利用 n-gram 统计信息或原始文本数据集,在没有音频文件的情况下,使用多语种模型构建语音识别流程,并在 1909 种语言上进行了测试。
Sep, 2022
本文提出并评估了微调技术,以提高自动语音识别系统对非标准语音的识别准确性,特别关注两种非标准语音:肌萎缩侧索硬化症患者的言语和带口音的言语,并训练出个性化模型,相对于标准语音,相对词错误率能提高 62%和 35%,仅五分钟的训练就能带来 71%的提升,微调部分层的结果往往比微调整个模型更好,是构建肌无力性言语最先进的自动语音识别模型的第一步。
Jul, 2019
为解决语音助手对口吃 (Speech Disorder) 人士不友好的问题,研究提出了一种简单高效的称为 “Detect and Pass” 的算法,它通过一个上下文相关的对口吃音频帧分类器,对口吃的音频进行筛选,再将这些筛选的结果传递到 ASR 模型中提高其错误率的鲁棒性。该研究表明在不同的 ASR 系统上,WER 的降低幅度达到了 23.93% 到 71.67%.
Feb, 2022
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
本研究旨在研究使用公开的噪声数据训练自动语音识别(ASR)系统的可行性,并发现使用语音增强技术进行数据清理后训练 ASR 系统比仅使用噪声数据和纯净数据训练 ASR 系统分别提高了 9.5%和 9%的单词错误率,其表现与噪声数据和纯净数据训练的理想情况相当。
Oct, 2019