可追溯的错误特征化
本研究提出了一种自动学习可解释规则的元学习方法,应用在 NLP 系统上,用以了解和改善系统的错误表现,并取得了一定的性能提升。该方法通过对验证数据的错误案例进行元特征提取以及规则学习,成功地为 VilBERT 和 RoBERTa 建立了可解释规则,进一步提高了系统表现。
Jan, 2022
通过引入带有证据词和语法错误类型的大型数据集 EXPECT 以及多个基线模型和分析,本文旨在提高解释性语法纠错系统,验证人类评估说明性语法纠错系统的解释可以帮助第二语言学习者确定是否接受校正建议,并了解相关的语法规则。
May, 2023
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本研究提出了一个预测性错误模型,用于检测三个规模广泛的机器学习应用(音乐流媒体、视频流媒体和移动应用)的搜索相关性标注任务中的潜在错误,并评估其提高数据标注过程的质量和效率的潜力。研究结果表明,自动错误检测模型可以在数据注释过程的效率和质量方面带来显着改善,并为人机协同机器学习领域提供重要见解。
Oct, 2023
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
通过系统文献综述,我们发现大多数通信学者没有考虑分类器的误分类偏差。我们介绍并测试了 “gold standard” 验证数据的错误校正方法,并通过蒙特卡罗模拟来揭示每种方法的局限性。我们推荐我们设计和实施的新方法作为更有效的误差校正方法。
Jul, 2023
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022