医学 ASR 标点及大小写预测的稳健性

ACLJul, 2020

医学 ASR 标点及大小写预测的稳健性

Robust Prediction of Punctuation and Truecasing for Medical ASR

Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati, Katrin Kirchhoff

TL;DR本论文提出了一种基于预训练掩码语言模型，如 BERT、BioBERT 和 RoBERTa 的条件联合建模框架，用于预测标点符号和大小写，并介绍了域和任务特定自适应技术和数据增强方法，可提高医学领域 ASR 系统输出的识别准确率。实验结果表明，所提出的模型在字典和会话样式语料库上，相对于基线模型，F1 度量下实现了～5% 的绝对改进和～10% 的 ASR 输出优化。

Abstract

automatic speech recognition (ASR) systems in the medical domain that focus on transcribing clinical dictations and doctor-patient conversations often pose many challenges due to the complexity of the domain. ASR

automatic speech recognition medical domain punctuation truecasing masked language models

发现论文，激发创造

一种适用于中文医学标点恢复的小型且快速的 BERT 模型

基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型，通过引入监督对比学习和新颖的辅助预训练任务（标点符号预测），蒸馏预训练模型以适应标点还原需求，实验表明，该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。

Aug, 2023

使用 Transformer 和 Chunk Merging 实现自动语音识别的快速准确的大写和标点符号

本文提出了一种基于变形金刚模型和块合并的长语音自动语音识别标点和大写字母恢复方法，实验证明该方法在正确性和解码速度两方面均优于现有方法，并使用英国国家语料库可行。

Aug, 2019

自发对话中的标点预测：我们能否使用修正后的单词嵌入减缓 ASR 错误？

本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响，并在标点预测任务中实验证明其可降低同音词误差带来的影响，相较最先进模型，在句号等标点预测准确率上提升达 9%。

Apr, 2020

利用外部数据提高语音抄本的标点恢复能力

本文研究了针对嘈杂文本（如电话对话场景）的标点恢复问题，提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据，并提出了一种基于 BERT 模型的两阶段微调方法，大量实验表明该方法的 F1 得分提高了 1.12％，优于基线模型。

Oct, 2021

面向会话语音的标点符号预测模型

本文通过训练基于深度神经网络技术的双向长短期记忆网络（BLSTM）和卷积神经网络（CNN）的序列标注模型，来解决语音识别系统中无法正常预测标点符号的问题，并且通过在 Fisher 语料库上的实验证明，基于卷积神经网络预测标点符号的方法更加精确。同时，本文结果表明，将 Fisher 语料库转化为时间对齐的文本以及采用预训练嵌入模型可以提高标点预测的准确性。

Jul, 2018

基于 Transformer 的长篇口述流式标点

本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法，并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题，提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数，适用于机器翻译领域。

Oct, 2022

LibriSpeech-PC: 评估端到端自动语音识别模型标点和大小写能力的基准测试

传统自动语音识别模型将输出转换为小写无标点符号的单词，从而降低了可读性，需要进一步的文本处理模型来将语音识别转录成正确的格式。本文介绍了一个名为 LibriSpeech-PC 的基准测试，用于评估端到端自动语音识别模型在标点和大小写预测方面的能力，同时提出了一种名为 PER 的新型评估指标，专注于标点符号，并提供了初步的基准模型。所有代码、数据和模型均可公开获取。

Oct, 2023

使用 Truecasing 预训练的鲁棒命名实体识别

本文通过预测文本大小写的方式，提出了一种新方法改进了命名实体识别在嘈杂无序情况下的稳健性表现，该方法利用未标注数据的真实大小写器与标准的 BiLSTM-CRF 模型结合。实验表明我们的方法在无序文本中提高了性能，并在 WNUT17 共享任务数据集上实现了新的最佳效果。

Dec, 2019

带标点的端到端流式自动语音识别模型的改进训练

本文提出了一种基于 Transformer 编码器和 CTC loss 的方法，实现对输入语音的标点文本进行预测，并通过对文本分块和话语的 CTC 损失组合，提高了标点预测的准确性和单词错误率。

Jun, 2023

端到端语音标点文本识别

本研究提出了一种基于端到端模型的自动语音识别系统，利用声学信息和多任务学习技术来实现对文本标点符号的准确预测，相较之于传统级联式的标点预测系统，准确率更高，同时也大大减少了参数数。

Jul, 2022