为保障警方问责而开发语音处理流程

Jun, 2023

为保障警方问责而开发语音处理流程

Developing Speech Processing Pipelines for Police Accountability

Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan Jurafsky

TL;DR本文研究如何使用大型预训练语音模型来提高警察配戴录音摄像头记录的交通站点片段的自动语音识别性能，并发现 fine-tuning 技术可以大大提高识别性能。

Abstract

police body-worn cameras have the potential to improve accountability and transparency in policing. Yet in practice, they result in millions of hours of footage that is never reviewed. We investigate the potential of large pre-trained speech models for facilitating reviews, focusing on

police body-worn cameras asr officer speech detection fine-tuning traffic stops

发现论文，激发创造

利用预训练语言模型生成人类可读的自动语音识别转录

本文提出了一个自动语音识别后处理模型，旨在将不正确和嘈杂的 ASR 输出转换为可读的文本，并使用元数据提取语料库构建了一种任务特定的数据集，并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上，我们的模型在可读性感知 WER（RA-WER）上比基线模型提高了 13.26％，在 BLEU 度量上提高了 17.53％。人类评估还证明我们的方法可以生成比基线更易读的转录本。

Feb, 2021

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024

改进实际会议应用中的发言人指派的语音识别

优化使用演讲者归属自动语音识别（SA-ASR）系统在实际场景中，如 AMI 会议语料库，用于改进语音片段的演讲者分配的新颖研究，涉及语音活动检测（VAD）、发言者序列聚类（SD）和 SA-ASR 方面的流程。

Mar, 2024

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

通过欧盟辩论自动语音识别进行政治语料库创建

本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。

Apr, 2023

ASR2K：2 千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用 n-gram 统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在 1909 种语言上进行了测试。

Sep, 2022

针对数据有限的发音不清和口音不标准的个性化 ASR

本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高 62％和 35％，仅五分钟的训练就能带来 71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Jul, 2019

利用 Detect and Pass 增强有限数据的口吃语音 ASR

为解决语音助手对口吃 (Speech Disorder) 人士不友好的问题，研究提出了一种简单高效的称为 “Detect and Pass” 的算法，它通过一个上下文相关的对口吃音频帧分类器，对口吃的音频进行筛选，再将这些筛选的结果传递到 ASR 模型中提高其错误率的鲁棒性。该研究表明在不同的 ASR 系统上，WER 的降低幅度达到了 23.93% 到 71.67%.

Feb, 2022

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

公开数据的语音增强是否有助于构建鲁棒的语音识别系统？

本研究旨在研究使用公开的噪声数据训练自动语音识别（ASR）系统的可行性，并发现使用语音增强技术进行数据清理后训练 ASR 系统比仅使用噪声数据和纯净数据训练 ASR 系统分别提高了 9.5％和 9％的单词错误率，其表现与噪声数据和纯净数据训练的理想情况相当。

Oct, 2019