通过数据生成和强化学习提升标点恢复
本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了 1.12%,优于基线模型。
Oct, 2021
本文提出了一种自动标点恢复系统,采用两种基于迁移学习的策略来解决西班牙文转录数据的稀疏性,同时使用英语转录数据来提高标点恢复系统的准确性,适用于实时客户支持转录服务。
May, 2022
非监督学习目标如语言建模和去噪在产生预训练模型方面扮演重要角色,然而,最近的大语言模型的对话能力令人印象深刻,但它们在捕捉文本内的句法或语义结构方面滞后。我们假设这种语言性能和机器能力之间的差异是由于目前流行的预训练目标对语言结构知识的转移不足引起的。我们表明,标点恢复可以提高与结构相关的任务的内、外分布性能,如命名实体识别、开放信息提取、块划分和词性标注。标点恢复是一种有效的学习目标,可以改善结构理解并产生更健壮的结构感知的自然语言表示。
Feb, 2024
本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响,并在标点预测任务中实验证明其可降低同音词误差带来的影响,相较最先进模型,在句号等标点预测准确率上提升达 9%。
Apr, 2020
基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型,通过引入监督对比学习和新颖的辅助预训练任务(标点符号预测),蒸馏预训练模型以适应标点还原需求,实验表明,该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。
Aug, 2023
本文提出了一种基于变形金刚模型和块合并的长语音自动语音识别标点和大写字母恢复方法,实验证明该方法在正确性和解码速度两方面均优于现有方法,并使用英国国家语料库可行。
Aug, 2019
该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法,使用基于填槽(slot-filling)的方法进行标点预测,取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。
Dec, 2022
本研究旨在解决文本标点还原中词向量只包含从左到右上下文信息和外部词性标注器的不足。为此,引入敌对式迁移学习和多任务联合学习,将预训练双向编码器表示模型用于初始化标点模型,利用多个任务的学习提高模型效果,在 IWSLT2011 数据集上进行实验,结果表明本文提出的模型相较于以往基于词法特征的模型,在测试集上的 F1-score 表现提高了 9.2%。
Apr, 2020
本研究提出了一种新颖的混合声学和词汇标点复原系统,用于西班牙语转录,通过模块化过程整合声学和词汇信号,实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数,并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较,表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外,我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。
Feb, 2024
本文提出一种基于流式处理的自动标点系统,使用动态解码窗口对 ASR 识别结果进行标点或重新标点,并检测其对标点和分割准确性的影响。实验结果表明,该方法能够有效解决过分割问题,提高 13.9% 的分割 F0.5 评分,并使机器翻译任务的 BLEU 分数平均提高 0.66。
Jan, 2023