Oct, 2023

探索汉语拼音在预训练中的应用

TL;DR探索了在预训练模型中使用拼音的各种方法,并提出了一种名为 PmBERT 的新的预训练方法,通过精细的预训练任务,将字符和拼音表示融合,增强了对同音或近音错误的容错能力。通过全面的实验和消融测试,证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。