探索汉语拼音在预训练中的应用

Oct, 2023

Exploring the Usage of Chinese Pinyin in Pretraining

Baojun Wang, Kun Xu, Lifeng Shang

TL;DR探索了在预训练模型中使用拼音的各种方法，并提出了一种名为 PmBERT 的新的预训练方法，通过精细的预训练任务，将字符和拼音表示融合，增强了对同音或近音错误的容错能力。通过全面的实验和消融测试，证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。

Abstract

Unlike alphabetic languages, Chinese spelling and pronunciation are different. Both characters and pinyin take an important role in Chinese language understanding. In chinese nlp tasks, we almost adopt characters

chinese nlp pinyin pretraining models ssp errors robust phonetic enhanced chinese language model

发现论文，激发创造

ChineseBERT: 利用字形和拼音信息加强的中文预训练模型

本文提出了一种新的预训练语言模型 ChineseBERT，将汉字的字形、拼音信息融合到语言模型预训练中，该模型在多个汉语自然语言处理任务上取得了新的最佳表现。

Jun, 2021

中文语音识别中大语言模型的拼音规范化纠错

最近的研究表明大型语言模型在自动语音识别的纠错方面的有效性，但大部分研究集中在英语上。本文将目光转向中国语言，并构建了一个专门用于纠正中文自动语音识别错误的基准数据集，其中包含了广泛的场景和显著的挑战。随后，我们使用该数据集进行了初步评估，包括直接提示和微调预训练的大型语言模型。此外，我们提出了一种简单的拼音规范化方法，通过从文本假设直接转录拼音。实验结果显示，与没有规范化的情况相比，拼音规范化始终提升了大型语言模型的纠错能力。该数据集已经在网站上提供。

Jul, 2024

拼音和汉字双重解码对端到端普通话语音识别的有效性研究

该研究提出了一种在单输入双输出（SIDO）多任务框架下，基于拼音和汉字之间一一对应特征的改进双解码器模型，以及一种异步解码模式和双阶段培训策略，该模型在没有语言模型的情况下，在 AISHELL-1 数据集的测试集上相对于强基准模型有大幅度改善。

Jan, 2022

探索并适应汉语 GPT 对拼音输入法的应用

本研究探讨使用中文 GPT 进行拼音输入法，并通过丰富上下文与优化训练过程来解决同音字的问题，同时还创建了一个包含 270K 个实例的数据集，结果显示我们的方法在所有领域中都提高了缩写拼音的性能。

Mar, 2022

中文纠错的分离语音表示

该研究提出了一种新的中文拼写纠错方法，通过引入拼音信息，并使用拼音到字符目标学习有用的拼音表示。实验证明该方法在使用语音信息方面具有优越性。

May, 2023

神经网络中文拼音输入法的开放词汇学习

该研究提出一种神经模型来支持开放式词汇学习，基于在线更新的词汇表对拼音到汉字的转换进行优化，实验证明该方法在标准语料库和真实输入历史数据集上表现优异，有效地遵循用户输入行为。

Nov, 2018

PERT: 拼音转汉字任务的新解决方案

这篇论文介绍了一个名为 BERT 的新解决方案来解决输入法引擎中的拼音转字符转换任务，它的性能显著提高，还将其与 n-gram 结合在马尔可夫框架下进一步提高性能，并将外部词典整合到 BERT 中以解决 IME 中的 OOD 问题。

May, 2022

汉语拼音辅助输入法：输入未按键入的内容

本研究介绍了一种基于序列到序列模型和门控注意机制的中文输入法引擎，通过编码先前输入内容，令输入法能够在仅输入部分拼音的情况下准确预测汉字，从而显著提升用户体验。

Sep, 2018

基于字体风格信息的中文预训练模型：StyleBERT

通过整合字、拼音、五笔和笔画信息增强语言模型的能力，本文提出了一种中文预训练语言模型 StyleBERT，在多种中文 NLP 任务上取得了良好的性能表现。

Feb, 2022

面向性别偏见研究中被性别认同错误的中国人：基于拼音姓名性别预测的多任务学习与知识蒸馏

通过使用多任务学习网络和知识蒸馏方法，我们提供了一种基于汉字的拼音姓名性别猜测解决方案，可以有效地解决当前用于汉字拼音姓名的性别推测工具准确率不高的问题。我们的方法相对于商业性别猜测工具提高了 9.70% 至 20.08%，并且在性能上优于现有的技术算法。

May, 2024