利用外部数据提高语音抄本的标点恢复能力

EMNLPOct, 2021

利用外部数据提高语音抄本的标点恢复能力

Improving Punctuation Restoration for Speech Transcripts via External Data

Xue-Yong Fu, Cheng Chen, Md Tahmid Rahman Laskar, Shashi Bhushan TN, Simon Corston-Oliver

TL;DR本文研究了针对嘈杂文本（如电话对话场景）的标点恢复问题，提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据，并提出了一种基于 BERT 模型的两阶段微调方法，大量实验表明该方法的 F1 得分提高了 1.12％，优于基线模型。

Abstract

automatic speech recognition (ASR) systems generally do not produce punctuated transcripts. To make transcripts more readable and follow the expected input format for downstream language models, it is necessary to add punctuation marks. In this paper, we tackle the →

automatic speech recognition punctuation restoration noisy text data sampling fine-tuning

发现论文，激发创造

使用迁移学习恢复西班牙语客户支持记录的标点符号

本文提出了一种自动标点恢复系统，采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性，同时使用英语转录数据来提高标点恢复系统的准确性，适用于实时客户支持转录服务。

May, 2022

通过数据生成和强化学习提升标点恢复

这篇研究论文提出了一种强化学习方法，利用主题相关的书面文本和最新的大规模预训练生成式语言模型，来填补自动语音识别中书面文本和语音识别文本之间的差距，并在标点恢复的两个基准数据集上取得了最先进的性能。

Jul, 2023

使用 Transformer 和 Chunk Merging 实现自动语音识别的快速准确的大写和标点符号

本文提出了一种基于变形金刚模型和块合并的长语音自动语音识别标点和大写字母恢复方法，实验证明该方法在正确性和解码速度两方面均优于现有方法，并使用英国国家语料库可行。

Aug, 2019

自发对话中的标点预测：我们能否使用修正后的单词嵌入减缓 ASR 错误？

本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响，并在标点预测任务中实验证明其可降低同音词误差带来的影响，相较最先进模型，在句号等标点预测准确率上提升达 9%。

Apr, 2020

基于 Transformer 的长篇口述流式标点

本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法，并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题，提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数，适用于机器翻译领域。

Oct, 2022

基于双向上下文的连续语音识别新标点技术

本文提出一种基于流式处理的自动标点系统，使用动态解码窗口对 ASR 识别结果进行标点或重新标点，并检测其对标点和分割准确性的影响。实验结果表明，该方法能够有效解决过分割问题，提高 13.9% 的分割 F0.5 评分，并使机器翻译任务的 BLEU 分数平均提高 0.66。

Jan, 2023

一种适用于中文医学标点恢复的小型且快速的 BERT 模型

基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型，通过引入监督对比学习和新颖的辅助预训练任务（标点符号预测），蒸馏预训练模型以适应标点还原需求，实验表明，该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。

Aug, 2023

带标点的端到端流式自动语音识别模型的改进训练

本文提出了一种基于 Transformer 编码器和 CTC loss 的方法，实现对输入语音的标点文本进行预测，并通过对文本分块和话语的 CTC 损失组合，提高了标点预测的准确性和单词错误率。

Jun, 2023

解决西班牙语中的转录模糊问题：基于混合声学 - 词汇系统的标点恢复

本研究提出了一种新颖的混合声学和词汇标点复原系统，用于西班牙语转录，通过模块化过程整合声学和词汇信号，实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数，并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较，表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外，我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。

Feb, 2024

新加坡口语标点修复：英语、马来语和华语

该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法，使用基于填槽（slot-filling）的方法进行标点预测，取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。

Dec, 2022