通过精细调整 KB-BERT 对瑞典文中的标点恢复

Feb, 2022

通过精细调整 KB-BERT 对瑞典文中的标点恢复

Punctuation restoration in Swedish through fine-tuned KB-BERT

John Björkman Nilsson

TL;DR使用一种基于 KB-BERT 模型的方法，对无标点的瑞典语文本进行自动纠正成正确的标点文本进行了研究，提出的预训练模型 prestoBERT 在标点纠正上取得了较好的成绩。

Abstract

Presented here is a method for automatic punctuation restoration in swedish using a bert model. The method is based on KB-BERT, a publicly

swedish bert model automatic punctuation restoration nlp domains prestobert

发现论文，激发创造

BERT 模型自动标点恢复

本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号，并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证，得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。

Jan, 2021

一种适用于中文医学标点恢复的小型且快速的 BERT 模型

基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型，通过引入监督对比学习和新颖的辅助预训练任务（标点符号预测），蒸馏预训练模型以适应标点还原需求，实验表明，该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。

Aug, 2023

新加坡口语标点修复：英语、马来语和华语

该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法，使用基于填槽（slot-filling）的方法进行标点预测，取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。

Dec, 2022

利用外部数据提高语音抄本的标点恢复能力

本文研究了针对嘈杂文本（如电话对话场景）的标点恢复问题，提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据，并提出了一种基于 BERT 模型的两阶段微调方法，大量实验表明该方法的 F1 得分提高了 1.12％，优于基线模型。

Oct, 2021

面向会话语音的标点符号预测模型

本文通过训练基于深度神经网络技术的双向长短期记忆网络（BLSTM）和卷积神经网络（CNN）的序列标注模型，来解决语音识别系统中无法正常预测标点符号的问题，并且通过在 Fisher 语料库上的实验证明，基于卷积神经网络预测标点符号的方法更加精确。同时，本文结果表明，将 Fisher 语料库转化为时间对齐的文本以及采用预训练嵌入模型可以提高标点预测的准确性。

Jul, 2018

使用迁移学习恢复西班牙语客户支持记录的标点符号

本文提出了一种自动标点恢复系统，采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性，同时使用英语转录数据来提高标点恢复系统的准确性，适用于实时客户支持转录服务。

May, 2022

使用 Transformers 进行荷兰语标点和分段预测

本文介绍了一个基于 Dutch language model RobBERT 的 sequence classification model ，用于在比利时荷兰语的自动语音识别输出中进行标点符号插入和分割。

Jan, 2023

通过数据生成和强化学习提升标点恢复

这篇研究论文提出了一种强化学习方法，利用主题相关的书面文本和最新的大规模预训练生成式语言模型，来填补自动语音识别中书面文本和语音识别文本之间的差距，并在标点恢复的两个基准数据集上取得了最先进的性能。

Jul, 2023

带标点的端到端流式自动语音识别模型的改进训练

本文提出了一种基于 Transformer 编码器和 CTC loss 的方法，实现对输入语音的标点文本进行预测，并通过对文本分块和话语的 CTC 损失组合，提高了标点预测的准确性和单词错误率。

Jun, 2023

解决西班牙语中的转录模糊问题：基于混合声学 - 词汇系统的标点恢复

本研究提出了一种新颖的混合声学和词汇标点复原系统，用于西班牙语转录，通过模块化过程整合声学和词汇信号，实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数，并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较，表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外，我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。

Feb, 2024