通过精细调整 KB-BERT 对瑞典文中的标点恢复
本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号,并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证,得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。
Jan, 2021
基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型,通过引入监督对比学习和新颖的辅助预训练任务(标点符号预测),蒸馏预训练模型以适应标点还原需求,实验表明,该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。
Aug, 2023
该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法,使用基于填槽(slot-filling)的方法进行标点预测,取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。
Dec, 2022
本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了 1.12%,优于基线模型。
Oct, 2021
本文通过训练基于深度神经网络技术的双向长短期记忆网络(BLSTM)和卷积神经网络(CNN)的序列标注模型,来解决语音识别系统中无法正常预测标点符号的问题,并且通过在 Fisher 语料库上的实验证明,基于卷积神经网络预测标点符号的方法更加精确。同时,本文结果表明,将 Fisher 语料库转化为时间对齐的文本以及采用预训练嵌入模型可以提高标点预测的准确性。
Jul, 2018
本文提出了一种自动标点恢复系统,采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性,同时使用英语转录数据来提高标点恢复系统的准确性,适用于实时客户支持转录服务。
May, 2022
本文介绍了一个基于 Dutch language model RobBERT 的 sequence classification model ,用于在比利时荷兰语的自动语音识别输出中进行标点符号插入和分割。
Jan, 2023
这篇研究论文提出了一种强化学习方法,利用主题相关的书面文本和最新的大规模预训练生成式语言模型,来填补自动语音识别中书面文本和语音识别文本之间的差距,并在标点恢复的两个基准数据集上取得了最先进的性能。
Jul, 2023
本文提出了一种基于 Transformer 编码器和 CTC loss 的方法,实现对输入语音的标点文本进行预测,并通过对文本分块和话语的 CTC 损失组合,提高了标点预测的准确性和单词错误率。
Jun, 2023
本研究提出了一种新颖的混合声学和词汇标点复原系统,用于西班牙语转录,通过模块化过程整合声学和词汇信号,实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数,并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较,表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外,我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。
Feb, 2024