ChineseBERT: 利用字形和拼音信息加强的中文预训练模型
通过整合字、拼音、五笔和笔画信息增强语言模型的能力,本文提出了一种中文预训练语言模型 StyleBERT,在多种中文 NLP 任务上取得了良好的性能表现。
Feb, 2022
探索了在预训练模型中使用拼音的各种方法,并提出了一种名为 PmBERT 的新的预训练方法,通过精细的预训练任务,将字符和拼音表示融合,增强了对同音或近音错误的容错能力。通过全面的实验和消融测试,证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。
Oct, 2023
本文提出了一种预训练的字形模型 GBERT,通过两种方法将其融合到基于 Transformer 的 G2P 模型中,实验证明了该模型在 SIGMORPHON 2021 G2P 任务的中低资源数据情况下的有效性。
Jan, 2022
本篇论文提出了基于 BERT 的中文文本编码器 ZEN,使用 N-gram 表示法考虑不同字符组合,明确预训练并在字符编码器 (BERT) 的细调中进行单词或短语分界处理,使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现,同时在小语料库上进行 ZEN 的训练,也可以获得合理的性能并且可以应用于限定数据的场景。
Nov, 2019
本文提出一种中文多音字 BERT 模型,通过从 354 个原中文多音字生成 741 个新的中文单音字,再将其添加到预训练的中文 BERT 中,使得多音字消岐任务能够转化为中文多音字 BERT 语言模型的预训练任务。实验结果验证了该模型的有效性,与基于 BERT 的分类器模型相比,该多音字 BERT 模型获得了 2% 的平均准确率提升(从 92.1% 到 94.1%)
Jul, 2022
这篇论文介绍了一个名为 BERT 的新解决方案来解决输入法引擎中的拼音转字符转换任务,它的性能显著提高,还将其与 n-gram 结合在马尔可夫框架下进一步提高性能,并将外部词典整合到 BERT 中以解决 IME 中的 OOD 问题。
May, 2022
本研究使用 Sentencepiece 从藏文网站收集大规模训练数据,并构建了一个词汇表,覆盖了语料库中 99.95%的单词,使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型,最后将 TiBERT 应用于文本分类和问题生成的下游任务,并且与传统模型和多语言预训练模型进行比较,实验结果表明 TiBERT 能够实现最佳性能。
May, 2022
介绍了 PnG BERT,它是一种新的神经 TTS 编码器模型,使用输入的音素和字素表示以及它们之间的单词级对齐来增强原始的 BERT 模型。该模型可以进行自我监督的大型文本语料库的预训练,并通过 TTS 任务进行微调。实验结果表明,使用 PnG BERT 作为编码器进行预训练的神经 TTS 模型产生的语音韵律更自然,发音更准确,比仅使用音素输入而不预训练的基线模型表现更好。主观音频偏好评估表明,听者对使用 PnG BERT 合成的语音和专业演讲者的真实录音之间没有显着的统计差异。
Mar, 2021
本研究基于 Cui 等人(2020)开发的 BERT 模型,分别采用两种方法将其纳入编码器 - 解码器模型进行汉语语法错误纠正任务,发现句子级错误尚未得到解决。
Nov, 2020
我们介绍了古籍 BERT 和古籍 GPT 这两个基础模型,通过在包含简体和繁体中文字符的数据集上训练,这两个模型可以有效地处理与古籍相关的自然语言处理任务,这表明了使用自监督方法进一步训练模型能够提高其应对下游任务的能力。同时,我们开发了三个不同类别的共九个模型变体,以满足数字人文和语言学研究人员的不同文本处理偏好。
Jul, 2023