BERT 模型自动标点恢复
使用一种基于 KB-BERT 模型的方法,对无标点的瑞典语文本进行自动纠正成正确的标点文本进行了研究,提出的预训练模型 prestoBERT 在标点纠正上取得了较好的成绩。
Feb, 2022
基于 “预训练和微调” 范式的快速轻量级中文医学标点还原模型,通过引入监督对比学习和新颖的辅助预训练任务(标点符号预测),蒸馏预训练模型以适应标点还原需求,实验表明,该模型在相对于最先进的中文 RoBERTa 模型的 10% 模型尺寸下能够达到 95% 的性能。
Aug, 2023
该论文介绍了一种针对 ASR 转写文本中缺失标点的修复方法,使用基于填槽(slot-filling)的方法进行标点预测,取得了在英语、华语、马来语 IWSLT2022 数据集上最好的效果。
Dec, 2022
本文介绍了使用 Hunglish2 语料库训练基于 Transformer 的神经机器翻译模型以实现匈牙利语 - 英语和英语 - 匈牙利语的翻译,最佳模型在匈牙利语 - 英语和英语 - 匈牙利语上的 BLEU 分数分别为 40.0 和 33.4。此外,本文还介绍了一项正在进行的基于语法增强的神经机器翻译工作的结果。我们提供了代码和模型的公开资源。
Jan, 2022
本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了 1.12%,优于基线模型。
Oct, 2021
本文介绍了一种名为 UniPunc 的多模态标点恢复框架,使用混合样本并基于共享潜在空间学习混合表示来标点。该模型在真实世界数据集中的表现优于各种强基线模型(例如 BERT,MuSe)至少 0.8 个整体 F1 得分,成为新的最先进技术。
Jan, 2022
本研究旨在解决文本标点还原中词向量只包含从左到右上下文信息和外部词性标注器的不足。为此,引入敌对式迁移学习和多任务联合学习,将预训练双向编码器表示模型用于初始化标点模型,利用多个任务的学习提高模型效果,在 IWSLT2011 数据集上进行实验,结果表明本文提出的模型相较于以往基于词法特征的模型,在测试集上的 F1-score 表现提高了 9.2%。
Apr, 2020
EfficientPunct 使用多模时间延迟神经网络实现标点符号的恢复,它在性能和效率方面都创造了新的最佳结果,其中使用 BERT 纯文本嵌入的预测的权重略高于多模网络的预测。
Feb, 2023
本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法,并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题,提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数,适用于机器翻译领域。
Oct, 2022
本研究探索一种多模态半监督学习方法,通过学习大量无标签的音频和文本数据来预测标点符号。实验结果表明,使用注意力机制的多模态融合相对于使用强制对齐的多模态融合可以使基线模型分别在参考转录和自动语音识别输出上达到约 6-9%和 3-4%的绝对改进(F1 分数),数据增广也可以使模型对 ASR 错误更加鲁棒。
Aug, 2020