利用预训练语言模型生成人类可读的自动语音识别转录

Feb, 2021

利用预训练语言模型生成人类可读的自动语音识别转录

Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model

Junwei Liao, Yu Shi, Ming Gong, Linjun Shou, Sefik Eskimez...

TL;DR本文提出了一个自动语音识别后处理模型，旨在将不正确和嘈杂的 ASR 输出转换为可读的文本，并使用元数据提取语料库构建了一种任务特定的数据集，并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上，我们的模型在可读性感知 WER（RA-WER）上比基线模型提高了 13.26％，在 BLEU 度量上提高了 17.53％。人类评估还证明我们的方法可以生成比基线更易读的转录本。

Abstract

Modern Automatic Speech Recognition (asr) systems can achieve high performance in terms of recognition accuracy. However, a perfectly accurate transcript still can be challenging to read due to disfluency, filter words, and other errata common in spoken communication. Many downstream t

asr post-processing model metadata extraction corpus data augmentation roberta pre-trained model

发现论文，激发创造

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

突破数据屏障：通过对抗稳定性训练实现鲁棒性语音翻译

本文提出了一种通过对编码器和解码器同时采用对抗学习和数据增强，使得神经机器翻译模型更加鲁棒处理语音识别误差的训练架构，并在 IWSLT2018 语音翻译任务上实现了与自然文本几乎相当的结果，在有识别噪声的 ASR 输出上比基准系统高 2.83 个 BLEU 分数。

Sep, 2019

利用机器翻译进行 ASR 纠错和领域适应

本文提出了一种简单的技术，通过机器翻译实现 ASR 误差校正的领域自适应，我们使用了 Google ASR 和 ASPIRE 模型进行了实验，结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%，其 BLEU 分数绝对值提高了 4 点；同时，通过流下游任务 Speaker Diarization，我们还评估了 ASR 误差校正，并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。

Mar, 2020

使用序列到序列模型进行自动语音识别的误差校正

该研究使用预训练序列到序列模型 BART，并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正，并采用词级对齐的简单方法重新评分。实验结果表明，该策略在口音语音数据上有效地矫正了大量 ASR 错误，并在与基准系统的比较中产生了改进的 WER 结果。然而，在印地语语法错误纠正任务中，该模型捕捉更广泛上下文的能力受到限制。

Feb, 2022

人工转写质量提升

我们提出了一种可靠的方法来收集语音转录，通过在标注阶段进行置信度估计重新处理和在标注后进行自动词错误校正来提高转录质量。我们发布了 LibriCrowd—— 一个包含 100 小时英语语音的大规模众包数据集。实验结果显示，转录错误率降低了 50% 以上。我们进一步研究了转录错误对 ASR 模型性能的影响，并发现了强相关性。转录质量的提高可以使 ASR 模型的错误率下降 10% 以上。我们将数据集和代码发布给研究社区，以造福广大研究者。

Sep, 2023

应用 ASR 生成的文本进行语言模型预训练用于语音任务

使用自动转录的大规模语音来改进口语语言建模，利用法国国家音频视觉学院收集的文本数据应用 ASR，并在现有模型（FlauBERT）微调或从头开始训练口语语言模型，生成新模型（FlauBERT-Oral），并在口语理解、电视节目分类和语音句法分析 3 个下游任务中评估其性能，结果表明，与初始化 FlauBERT 版本相比，FlauBERT-Oral 有望带来好处，表明尽管 ASR 生成的文本存在噪音，但仍可以用于构建口语语言模型。

Jul, 2022

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

基于 ASR 的阅读启蒙导师：如何优化对一年级学生的反馈

本研究通过 ASR 系统分析儿童的语音来开发新的系统，与之前的研究进行比较，结果表明新开发的 ASR 系统在正确拒绝方面表现出更好的结果；该结果表明，难以对孤立的单词进行分类。

Jun, 2023

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024