使用 Transformer 和 Chunk Merging 实现自动语音识别的快速准确的大写和标点符号
本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法,并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题,提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数,适用于机器翻译领域。
Oct, 2022
本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了 1.12%,优于基线模型。
Oct, 2021
传统自动语音识别模型将输出转换为小写无标点符号的单词,从而降低了可读性,需要进一步的文本处理模型来将语音识别转录成正确的格式。本文介绍了一个名为 LibriSpeech-PC 的基准测试,用于评估端到端自动语音识别模型在标点和大小写预测方面的能力,同时提出了一种名为 PER 的新型评估指标,专注于标点符号,并提供了初步的基准模型。所有代码、数据和模型均可公开获取。
Oct, 2023
本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响,并在标点预测任务中实验证明其可降低同音词误差带来的影响,相较最先进模型,在句号等标点预测准确率上提升达 9%。
Apr, 2020
本文提出一种基于流式处理的自动标点系统,使用动态解码窗口对 ASR 识别结果进行标点或重新标点,并检测其对标点和分割准确性的影响。实验结果表明,该方法能够有效解决过分割问题,提高 13.9% 的分割 F0.5 评分,并使机器翻译任务的 BLEU 分数平均提高 0.66。
Jan, 2023
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
该研究提出了一种联合模型(JointCapPunc)以恢复缺失的大写和标点符号,并且构建了一个可公开获取的越南数据集,实验结果表明与之前模型相比,该模型效果更好。
Jul, 2022
本文提出了一种基于 Transformer 编码器和 CTC loss 的方法,实现对输入语音的标点文本进行预测,并通过对文本分块和话语的 CTC 损失组合,提高了标点预测的准确性和单词错误率。
Jun, 2023
本论文提出了一种基于预训练掩码语言模型,如 BERT、BioBERT 和 RoBERTa 的条件联合建模框架,用于预测标点符号和大小写,并介绍了域和任务特定自适应技术和数据增强方法,可提高医学领域 ASR 系统输出的识别准确率。实验结果表明,所提出的模型在字典和会话样式语料库上,相对于基线模型,F1 度量下实现了~5% 的绝对改进和~10% 的 ASR 输出优化。
Jul, 2020
本文提出了一种自动标点恢复系统,采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性,同时使用英语转录数据来提高标点恢复系统的准确性,适用于实时客户支持转录服务。
May, 2022