通过数据生成和强化学习提升标点恢复

Jul, 2023

通过数据生成和强化学习提升标点恢复

Boosting Punctuation Restoration with Data Generation and Reinforcement Learning

Viet Dac Lai, Abel Salinas, Hao Tan, Trung Bui, Quan Tran...

TL;DR这篇研究论文提出了一种强化学习方法，利用主题相关的书面文本和最新的大规模预训练生成式语言模型，来填补自动语音识别中书面文本和语音识别文本之间的差距，并在标点恢复的两个基准数据集上取得了最先进的性能。

Abstract

punctuation restoration is an important task in automatic speech recognition (ASR) which aim to restore the syntactic structure of generated ASR texts to improve →

punctuation restoration automatic speech recognition readability reinforcement learning generative language models

发现论文，激发创造

利用外部数据提高语音抄本的标点恢复能力

本文研究了针对嘈杂文本（如电话对话场景）的标点恢复问题，提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据，并提出了一种基于 BERT 模型的两阶段微调方法，大量实验表明该方法的 F1 得分提高了 1.12％，优于基线模型。

Oct, 2021

使用迁移学习恢复西班牙语客户支持记录的标点符号

本文提出了一种自动标点恢复系统，采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性，同时使用英语转录数据来提高标点恢复系统的准确性，适用于实时客户支持转录服务。

May, 2022

标点恢复提升结构理解无需监督

非监督学习目标如语言建模和去噪在产生预训练模型方面扮演重要角色，然而，最近的大语言模型的对话能力令人印象深刻，但它们在捕捉文本内的句法或语义结构方面滞后。我们假设这种语言性能和机器能力之间的差异是由于目前流行的预训练目标对语言结构知识的转移不足引起的。我们表明，标点恢复可以提高与结构相关的任务的内、外分布性能，如命名实体识别、开放信息提取、块划分和词性标注。标点恢复是一种有效的学习目标，可以改善结构理解并产生更健壮的结构感知的自然语言表示。

Feb, 2024

自发对话中的标点预测：我们能否使用修正后的单词嵌入减缓 ASR 错误？

本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响，并在标点预测任务中实验证明其可降低同音词误差带来的影响，相较最先进模型，在句号等标点预测准确率上提升达 9%。

Apr, 2020

一种适用于中文医学标点恢复的小型且快速的 BERT 模型

基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型，通过引入监督对比学习和新颖的辅助预训练任务（标点符号预测），蒸馏预训练模型以适应标点还原需求，实验表明，该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。

Aug, 2023

使用 Transformer 和 Chunk Merging 实现自动语音识别的快速准确的大写和标点符号

本文提出了一种基于变形金刚模型和块合并的长语音自动语音识别标点和大写字母恢复方法，实验证明该方法在正确性和解码速度两方面均优于现有方法，并使用英国国家语料库可行。

Aug, 2019

新加坡口语标点修复：英语、马来语和华语

该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法，使用基于填槽（slot-filling）的方法进行标点预测，取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。

Dec, 2022

标点复原的对抗迁移学习

本研究旨在解决文本标点还原中词向量只包含从左到右上下文信息和外部词性标注器的不足。为此，引入敌对式迁移学习和多任务联合学习，将预训练双向编码器表示模型用于初始化标点模型，利用多个任务的学习提高模型效果，在 IWSLT2011 数据集上进行实验，结果表明本文提出的模型相较于以往基于词法特征的模型，在测试集上的 F1-score 表现提高了 9.2%。

Apr, 2020

解决西班牙语中的转录模糊问题：基于混合声学 - 词汇系统的标点恢复

本研究提出了一种新颖的混合声学和词汇标点复原系统，用于西班牙语转录，通过模块化过程整合声学和词汇信号，实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数，并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较，表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外，我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。

Feb, 2024

基于双向上下文的连续语音识别新标点技术

本文提出一种基于流式处理的自动标点系统，使用动态解码窗口对 ASR 识别结果进行标点或重新标点，并检测其对标点和分割准确性的影响。实验结果表明，该方法能够有效解决过分割问题，提高 13.9% 的分割 F0.5 评分，并使机器翻译任务的 BLEU 分数平均提高 0.66。

Jan, 2023