PERT: 拼音转汉字任务的新解决方案

May, 2022

PERT: 拼音转汉字任务的新解决方案

PERT: A New Solution to Pinyin to Character Conversion Task

Jinghui Xiao, Qun Liu, Xin Jiang, Yuanfeng Xiong, Haiteng Wu...

TL;DR这篇论文介绍了一个名为 BERT 的新解决方案来解决输入法引擎中的拼音转字符转换任务，它的性能显著提高，还将其与 n-gram 结合在马尔可夫框架下进一步提高性能，并将外部词典整合到 BERT 中以解决 IME 中的 OOD 问题。

Abstract

pinyin to character conversion (P2C) task is the key task of Input Method Engine (IME) in commercial input software for Asian languages, such as Chinese, Japanese, Thai language and so on. It's usually treated as sequence labelling task and resolved by language model, i.e.

pinyin to character conversion input method engine bert n-gram lexicon

发现论文，激发创造

汉语拼音辅助输入法：输入未按键入的内容

本研究介绍了一种基于序列到序列模型和门控注意机制的中文输入法引擎，通过编码先前输入内容，令输入法能够在仅输入部分拼音的情况下准确预测汉字，从而显著提升用户体验。

Sep, 2018

神经网络中文拼音输入法的开放词汇学习

该研究提出一种神经模型来支持开放式词汇学习，基于在线更新的词汇表对拼音到汉字的转换进行优化，实验证明该方法在标准语料库和真实输入历史数据集上表现优异，有效地遵循用户输入行为。

Nov, 2018

ChineseBERT: 利用字形和拼音信息加强的中文预训练模型

本文提出了一种新的预训练语言模型 ChineseBERT，将汉字的字形、拼音信息融合到语言模型预训练中，该模型在多个汉语自然语言处理任务上取得了新的最佳表现。

Jun, 2021

生成输入：走向下一代的输入方法范式

本研究提出了一种名为 GeneInput 的新型生成输入范式，通过使用提示来处理所有输入场景和其他智能辅助输入功能，并通过用户反馈优化模型以提供个性化结果。结果表明，在全模式键序列到字符（FK2C）任务中，我们首次实现了最先进的性能。我们提出了一种新的奖励模型训练方法，消除了额外的手动注释需求，并在涉及智能关联和对话辅助的任务中超越了 GPT-4 性能。与传统范式相比，GeneInput 不仅展示了卓越的性能，而且具有增强的鲁棒性、可扩展性和在线学习能力。

Nov, 2023

PERT: 使用排列语言模型对 BERT 进行预训练

本文提出了一种新的预训练语言模型 (PERT)，它是一种自动编码模型，使用排列语言模型技术进行训练，并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明，PERT 可以在某些任务上比其他相似模型有更好的性能表现。

Mar, 2022

探索汉语拼音在预训练中的应用

探索了在预训练模型中使用拼音的各种方法，并提出了一种名为 PmBERT 的新的预训练方法，通过精细的预训练任务，将字符和拼音表示融合，增强了对同音或近音错误的容错能力。通过全面的实验和消融测试，证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。

Oct, 2023

探索并适应汉语 GPT 对拼音输入法的应用

本研究探讨使用中文 GPT 进行拼音输入法，并通过丰富上下文与优化训练过程来解决同音字的问题，同时还创建了一个包含 270K 个实例的数据集，结果显示我们的方法在所有领域中都提高了缩写拼音的性能。

Mar, 2022

汉语多音字消歧的多音字 BERT

本文提出一种中文多音字 BERT 模型，通过从 354 个原中文多音字生成 741 个新的中文单音字，再将其添加到预训练的中文 BERT 中，使得多音字消岐任务能够转化为中文多音字 BERT 语言模型的预训练任务。实验结果验证了该模型的有效性，与基于 BERT 的分类器模型相比，该多音字 BERT 模型获得了 2% 的平均准确率提升（从 92.1% 到 94.1%）

Jul, 2022

拼音和汉字双重解码对端到端普通话语音识别的有效性研究

该研究提出了一种在单输入双输出（SIDO）多任务框架下，基于拼音和汉字之间一一对应特征的改进双解码器模型，以及一种异步解码模式和双阶段培训策略，该模型在没有语言模型的情况下，在 AISHELL-1 数据集的测试集上相对于强基准模型有大幅度改善。

Jan, 2022

通过 ASCII 编码的汉英字符级翻译

本研究利用 Wubi 编码方案将汉字划分为类似于印欧语系的语言单元，为实现基于字符级的汉英翻译建立了基础，并使用循环和卷积模型等方法进行训练以取得了良好的结果。

May, 2018