PERT: 拼音转汉字任务的新解决方案
本研究介绍了一种基于序列到序列模型和门控注意机制的中文输入法引擎,通过编码先前输入内容,令输入法能够在仅输入部分拼音的情况下准确预测汉字,从而显著提升用户体验。
Sep, 2018
该研究提出一种神经模型来支持开放式词汇学习,基于在线更新的词汇表对拼音到汉字的转换进行优化,实验证明该方法在标准语料库和真实输入历史数据集上表现优异,有效地遵循用户输入行为。
Nov, 2018
本文提出了一种新的预训练语言模型 ChineseBERT,将汉字的字形、拼音信息融合到语言模型预训练中,该模型在多个汉语自然语言处理任务上取得了新的最佳表现。
Jun, 2021
本研究提出了一种名为 GeneInput 的新型生成输入范式,通过使用提示来处理所有输入场景和其他智能辅助输入功能,并通过用户反馈优化模型以提供个性化结果。结果表明,在全模式键序列到字符(FK2C)任务中,我们首次实现了最先进的性能。我们提出了一种新的奖励模型训练方法,消除了额外的手动注释需求,并在涉及智能关联和对话辅助的任务中超越了 GPT-4 性能。与传统范式相比,GeneInput 不仅展示了卓越的性能,而且具有增强的鲁棒性、可扩展性和在线学习能力。
Nov, 2023
本文提出了一种新的预训练语言模型 (PERT),它是一种自动编码模型,使用排列语言模型技术进行训练,并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明,PERT 可以在某些任务上比其他相似模型有更好的性能表现。
Mar, 2022
探索了在预训练模型中使用拼音的各种方法,并提出了一种名为 PmBERT 的新的预训练方法,通过精细的预训练任务,将字符和拼音表示融合,增强了对同音或近音错误的容错能力。通过全面的实验和消融测试,证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。
Oct, 2023
本研究探讨使用中文 GPT 进行拼音输入法,并通过丰富上下文与优化训练过程来解决同音字的问题,同时还创建了一个包含 270K 个实例的数据集,结果显示我们的方法在所有领域中都提高了缩写拼音的性能。
Mar, 2022
本文提出一种中文多音字 BERT 模型,通过从 354 个原中文多音字生成 741 个新的中文单音字,再将其添加到预训练的中文 BERT 中,使得多音字消岐任务能够转化为中文多音字 BERT 语言模型的预训练任务。实验结果验证了该模型的有效性,与基于 BERT 的分类器模型相比,该多音字 BERT 模型获得了 2% 的平均准确率提升(从 92.1% 到 94.1%)
Jul, 2022
该研究提出了一种在单输入双输出(SIDO)多任务框架下,基于拼音和汉字之间一一对应特征的改进双解码器模型,以及一种异步解码模式和双阶段培训策略,该模型在没有语言模型的情况下,在 AISHELL-1 数据集的测试集上相对于强基准模型有大幅度改善。
Jan, 2022
本研究利用 Wubi 编码方案将汉字划分为类似于印欧语系的语言单元,为实现基于字符级的汉英翻译建立了基础,并使用循环和卷积模型等方法进行训练以取得了良好的结果。
May, 2018