运用句法依存预测任务提高中文语义错误识别的预训练语言模型

Apr, 2022

运用句法依存预测任务提高中文语义错误识别的预训练语言模型

Improving Pre-trained Language Models with Syntactic Dependency Prediction Task for Chinese Semantic Error Recognition

Bo Sun, Baoxin Wang, Wanxiang Che, Dayong Wu, Zhigang Chen...

TL;DR本研究利用 BERT 模型结构和语法相关的预训练任务，构建了一个高质量的基于语言学的中文语义可接受性语料库，并在该数据集上实验，证明本研究方法优于通用预训练模型和语法模型。

Abstract

Existing Chinese text error detection mainly focuses on spelling and simple grammatical errors. These errors have been studied extensively and are relatively simple for humans. On the contrary, Chinese semantic errors are understudied and more complex that humans cannot easily recognize. The task of this paper is →

chinese semantic error recognition bert pre-training tasks dependency structure dataset

发现论文，激发创造

CSED: 一个中文语义错误诊断语料库

本研究旨在解决中文语义错误诊断（CSED）的问题，构建了 CSED 语料库，并且提出了一种针对 CSED 任务的基于句法的模型，该模型表现显著优于常规模型。

May, 2023

使用基于 BERT 的预训练模型进行中文语法纠错

本研究基于 Cui 等人（2020）开发的 BERT 模型，分别采用两种方法将其纳入编码器 - 解码器模型进行汉语语法错误纠正任务，发现句子级错误尚未得到解决。

Nov, 2020

通过语法依赖和语义意识提高中文故事生成

本文研究生成长篇叙述性内容的故事生成问题，提出了一种新的生成框架，通过依存关系增强机制和同义词去噪训练增强语义表示学习，显著提高了中文故事生成模型性能。

Oct, 2022

一种简单且准确的语法不可知的神经模型，用于基于依赖的语义角色标注

本篇论文中介绍了一种用于词语语义角色标注的简单而准确的神经模型，该模型通过双向 LSTM 编码器的状态预测谓词论元依赖关系，即使没有任何语法信息，仅使用本地推理即可在英语上取得有竞争力的性能，然而，当自动生成词性标注作为输入时，它的性能明显优于所有先前的本地模型，并接近报告的英语 CoNLL-2009 数据集的最佳结果。我们还考虑了中文、捷克语和西班牙语，其中我们的方法也取得了有竞争力的结果。基于语法的解析器在领域外数据上不可靠，因此当在该设置中进行测试时，标准（即语法相关）的 SRL 模型受到了阻碍。我们的基于语法不可知的模型表现更健壮，这在标准的领域外测试集上得到了最佳的报告结果。

Jan, 2017

文本到 SQL 语义解析的错误检测

本文提出了一种基于预训练代码语言模型和图神经网络结构特征学习的独立于解析器的文本到 SQL 语义解析错误检测模型，实验表明此方法超越了解析器依赖的不确定性度量方法，能够有效提高文本到 SQL 语义解析器的性能和可用性。

May, 2023

汉语拼写校正作为语言模型的改写

本研究探讨了中文拼写纠错，提出了一种新的训练方法 Rephrasing Language Modeling，通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误，取得了在细调和零样本测试中的最新最佳表现，超越了之前的方法，并能在与其他任务联合训练时学习到可迁移的语言表示。

Aug, 2023

语法增强的预训练模型

文章提出了一种新的基于 Transformer 模型的句法感知注意力层以及预训练任务，该模型可以从句法结构中获取信息来提高预训练模型在关系分类、实体类型标注和问答等任务中的表现。实验结果表明，该模型取得了当前最好的表现效果。

Dec, 2020

具有语义检测的中文文本纠错对抗多任务学习方法

该研究提出对抗多任务学习方法以增强中文文本的语义纠错能力，实验结果表明该方法在中文文本纠错任务中具有良好的性能。

Jun, 2023

从拼写到语法：汉语语法错误纠正的新框架

该研究提出了一种用于汉语语法错误纠正任务的神经网络模型，包含拼写错误纠正和语法错误纠正两个步骤，并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分，并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。

Nov, 2022

基于 BERT 的中文拼写检查模型的层间注意力和高斯混合模型增强

基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力，然而传统的基于 BERT 的方法仍存在两个局限性：第一，虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益，但他们忽略了拼写错误会导致错误标签从而误导模型的事实；此外，他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性，从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识，我们采用了由高斯混合模型驱动的辅助任务策略。同时，为了整合编码器中的隐含的分层语言知识，我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明，我们提出的框架在四个强基准模型上都有稳定的性能提升，并且在两个数据集上优于先前的最先进方法。

Dec, 2023