没有可比性:语法错误修正中无参考评估指标
提出了三种新的中文错别字纠正 (CGEC) 的评估度量:基于参考的度量方法有句子级别准确度和字符级 BLEU;基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。
Apr, 2022
提出了一种 Chunk-Level Multi-reference Evaluation (CLEME) 方法,通过建立一致边界的块序列并自动确定语法错误边界,以评估多引用设置下的语法纠错系统的性能,CLEME 方法在语料库级别和句子级别设置中比现有基于参考的 GEC 度量表现更好。
May, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本文提出了 SEEDA,这是一个用于语法错误修正的新数据集,包含了 12 个最先进的系统和两个不同焦点的人工纠错评估,通过在句子级别元评估中对齐粒度来改进相关性,并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。
Mar, 2024
本文研究发现,当前文本直接生成模型质量评估所使用的参考文献太少,导致评估结果偏差较大 (即低覆盖率偏差),在语法纠错 (GEC) 评估中,无法通过重新缩放或在可以实现的范围内增加参考文献的数量来解决该问题,这是由于单个句子的有效修正的分布具有长尾性。该问题促使 GEC 系统在可以生成有效修正的情况下避免进行纠正,使得现有系统的表现比人类相当或更好,类似的现象在文本简化中也得到了支持。
Apr, 2018
提出了一种自动化方法 MAEGE 用于语法错误校正度量的验证,该方法可以解决现有实践的许多困难并展示了标准的 M2 度量在语料库级别排名上性能较差的新见解。
Apr, 2018
本篇论文着重于改进语法错误修正(GEC)度量的可解释性,提出了基于参考的评估策略 CLEME2.0,描述了 GEC 系统的四个基本维度,即击中修正、错误修正、欠修正和过修正,综合这些维度对系统进行评估,能够获得高度一致性的人工判定结果。在两个人工判定数据集和六个参考数据集上进行了大量实验证明了该方法的有效性和鲁棒性。经同行评审后,所有代码将会发布。
Jul, 2024
本文提出了一种新的 GEC 评估指标 PT-M2,该指标只使用基于预训练的度量标准评分,以评估纠正部分,从而达到最佳效果。实验结果表明,PT-M2 显著优于现有方法,取得了 0.949 的皮尔逊相关性的最新最好结果。
Nov, 2022
我们提出了一种用于语法错误纠正的语义度量 USim,它度量了输出与源之间的语义准确性,从而补充了现有的基于无参考的度量方法(RLMs),以测量输出的语法性。USim 通过比较源和修正的语义符号结构来运作,而不依赖于手动策划的参考文献。我们的实验证明了 USim 的有效性,通过以下几点表现:(1)对不良文本可以一致地应用语义标注;(2)有效的修正获得较高的 USim 相似度分数;(3)无效的修正获得较低的分数。
Apr, 2018
该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性、可回答性和复杂性,该度量方法不受单个参考问题的句法或语义限制,也不需要多样化的参考文献集合。实验证明,该度量方法能够准确区分高质量问题和有缺陷的问题,并与人类判断达到最先进的一致性。
Mar, 2024