大写字母和标点恢复：一项调查

MMNov, 2021

Capitalization and Punctuation Restoration: a Survey

PDF

Vasile Păiş, Dan Tufiş

TL;DR本文调查了历史和最新的技术，针对文本来源中缺失标点符号和大小写的情况，进行了恢复和矫正。此外，还探讨了当前的挑战和研究方向。

Abstract

Ensuring proper punctuation and letter casing is a key pre-processing step towards applying complex →

natural language processing pre-processing punctuation casing automatic speech recognition

发现论文，激发创造

越南文大写字母和标点符号恢复模型

该研究提出了一种联合模型（JointCapPunc）以恢复缺失的大写和标点符号，并且构建了一个可公开获取的越南数据集，实验结果表明与之前模型相比，该模型效果更好。

Jul, 2022

通过数据生成和强化学习提升标点恢复

这篇研究论文提出了一种强化学习方法，利用主题相关的书面文本和最新的大规模预训练生成式语言模型，来填补自动语音识别中书面文本和语音识别文本之间的差距，并在标点恢复的两个基准数据集上取得了最先进的性能。

Jul, 2023

LibriSpeech-PC: 评估端到端自动语音识别模型标点和大小写能力的基准测试

传统自动语音识别模型将输出转换为小写无标点符号的单词，从而降低了可读性，需要进一步的文本处理模型来将语音识别转录成正确的格式。本文介绍了一个名为 LibriSpeech-PC 的基准测试，用于评估端到端自动语音识别模型在标点和大小写预测方面的能力，同时提出了一种名为 PER 的新型评估指标，专注于标点符号，并提供了初步的基准模型。所有代码、数据和模型均可公开获取。

Oct, 2023

使用 Transformer 和 Chunk Merging 实现自动语音识别的快速准确的大写和标点符号

本文提出了一种基于变形金刚模型和块合并的长语音自动语音识别标点和大写字母恢复方法，实验证明该方法在正确性和解码速度两方面均优于现有方法，并使用英国国家语料库可行。

Aug, 2019

标点恢复提升结构理解无需监督

非监督学习目标如语言建模和去噪在产生预训练模型方面扮演重要角色，然而，最近的大语言模型的对话能力令人印象深刻，但它们在捕捉文本内的句法或语义结构方面滞后。我们假设这种语言性能和机器能力之间的差异是由于目前流行的预训练目标对语言结构知识的转移不足引起的。我们表明，标点恢复可以提高与结构相关的任务的内、外分布性能，如命名实体识别、开放信息提取、块划分和词性标注。标点恢复是一种有效的学习目标，可以改善结构理解并产生更健壮的结构感知的自然语言表示。

Feb, 2024

不对任何单词进行大写标记的 NER 和 POS

本研究通过修改大小写来解决 NLP 任务中大写信号的问题，将大小写训练数据串联起来可以使模型在大小写文本中都拥有良好的性能，同时对嘈杂的 Twitter 数据进行测试，结果表明我们的解决方案提高了 8％的 F1 检测率。

Mar, 2019

利用外部数据提高语音抄本的标点恢复能力

本文研究了针对嘈杂文本（如电话对话场景）的标点恢复问题，提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据，并提出了一种基于 BERT 模型的两阶段微调方法，大量实验表明该方法的 F1 得分提高了 1.12％，优于基线模型。

Oct, 2021

使用准确高效的分层 RNN 模型进行语言建模的大写标准化

本研究提出了一种基于递归神经网络的两级分层的单词和字符的快速，准确和紧凑的文本真实大小写还原模型，该模型被用于在联合学习框架下的语言建模。经过归一化处理的语料库的语言模型表现与完美大小写匹配处理的语料库的模型表现相当，这对于虚拟键盘应用程序中的减少预测误差率至关重要。在用户 A/B 实验中，我们还展示了该模型能够减少语音识别中的大写字符错误率和单词错误率。

Feb, 2022

解决西班牙语中的转录模糊问题：基于混合声学 - 词汇系统的标点恢复

本研究提出了一种新颖的混合声学和词汇标点复原系统，用于西班牙语转录，通过模块化过程整合声学和词汇信号，实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数，并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较，表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外，我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。

Feb, 2024

使用迁移学习恢复西班牙语客户支持记录的标点符号

本文提出了一种自动标点恢复系统，采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性，同时使用英语转录数据来提高标点恢复系统的准确性，适用于实时客户支持转录服务。

May, 2022