更好的 Smatch = 更好的解析器？AMR 评估不再那么简单

Oct, 2022

更好的 Smatch = 更好的解析器？AMR 评估不再那么简单

Better Smatch = Better Parser? AMR evaluation is not so simple anymore

Juri Opitz, Anette Frank

TL;DR本研究对两种 AMR 解析器进行了分析，将其与 Smatch 和其他 AMR 指标以及人类质量评估进行了比较，发现高 Smatch 分数不一定表示一致的解析质量，并且经常出现结构上小的、但语义上不可接受的错误，从而建议使用宏统计、其他指标和更多的人类分析来评估解析器的质量差异。

Abstract

Recently, astonishing advances have been observed in amr parsing, as measured by the structural smatch metric. In fact, today's systems achieve performance levels that seem to surpass estimates of →

amr parsing smatch metric human inter annotator agreement parse quality semantic errors

发现论文，激发创造

基于原则的 AMR 相似度评估

本文提出了一种新的度量标准 S$^2$match，它可以比较 Abstract Meaning Representation (AMR) graphs 并评估 triple matches，与具有类似功能的 Smatch 和 SemBleu 比较后，S$^2$match 具有更好的性能，能够更好地控制偏差。

Jan, 2020

RIGA 在 SemEval-2016 任务 8 中：Smatch 扩展和字符级神经机器翻译对 AMR 解析准确性的影响

该研究介绍了两种扩展 AMR smatch 评分脚本的方法，即使用 C6.0 基于规则的分类器生成可读的错误频率报告以及结合集成方法选择同一句子的最佳 AMR 图。其中，字符级神经翻译 AMR 解析器在 AMR 解析任务中展现了意外的表现，比其它模型获得更高的 F1 得分，最终实现了对 SemEval-2016 标准集的 62% 和 LDC2015E86 测试集的 67% 的匹配度。

Apr, 2016

重新匹配：改善结构和语义相似度的本地知识图匹配的鲁棒且高效方法

通过介绍一种新的 AMR 相似度度量方法 rematch 和一个新的结构相似性评估标准 RARE，本文解决了目前现有的 AMR 度量方法效率低和难以捕捉语义相似度的问题，并在 STB-B 和 SICK-R 基准测试中，rematch 在结构相似性排名和语义相似性上分别位列第二和第一，比其他现有方法更高效。

Apr, 2024

DocAMR: 多句 AMR 表示和评估

本文介绍了一种简单的算法，可将超句级的共指标注转化为统一的图表达方式，避免了信息合并的信息损失和不协调的问题。通过改进 Smatch 度量方法，使其可以用于比较文档级别的图形，并用它来重新评估最佳发布的文档级 AMR 解析器，同时提供了一个将 AMR 解析器和共指消解系统相结合的管道方法，这为未来的研究提供了一个强大的基准。

Dec, 2021

SemBleu: AMR 解析评估的鲁棒度量

我们提出了一种名为 SEMBLEU 的强健指标来评估 AMR 解析准确性，并解决了搜索错误问题，该指标在局部和非局部的对应方面都得到了考虑，在句子和语料库级别的初步实验表明，SEMBLEU 与人类判断具有更高的一致性。

May, 2019

AMR 解析远未解决：GrAPES，AMR 解析评估套件

我们提出了 Granular AMR Parsing Evaluation Suite (GrAPES)，这是一个用于 Abstract Meaning Representation (AMR) 解析的挑战集合，伴随着相应的评估指标。我们的评估套件测试了 AMR 解析器对实际、技术和语言学上感兴趣的一系列现象。

Dec, 2023

基于强化学习的转移依存 AMR 解析中带奖励的 Smatch

通过 Policy Learning 和奖励样本图的 Smatch 得分来丰富 Stack-LSTM 转移式 AMR 解析器的训练，在 AMR-to-text 的对齐和加入注意力机制的基础上补充了预处理的概念识别、命名实体和上下文嵌入，从而实现了与最优 published results 相媲美的高竞争性能。我们进行了深入的研究来研究解析器的每个新组件。

May, 2019

AMRs 统合！使用自回归模型学习进行 AMR 解析统合

本文研究了 AMR 解析的现状和问题，提出了两种基于 Transformer 模型的集成策略来解决结构约束问题，并强调了计算所有可能预测的 SMATCH 得分的需求。

Jun, 2023

SMARAGD: 合成的 sMatch 用于准确快速的 AMR 图距离

本文提出了一种用于 Abstract Meaning Representation（AMR）的快速且准确的语义相似度计算方法 SMARAGD。使用机器翻译框架预测匹配或使用 Siamese CNN 直接预测 SMATCH 分数，同时在数据增强、AMR 图形匿名化方面进行了实验，成功地降低了误差。

Mar, 2022

最大贝叶斯 Smatch 集成蒸馏用于 AMR 解析

本研究提出了一种结合 Smatch-based 集成技术和集成蒸馏的方法，克服银标注数据减少的问题，并将英语解析器的性能推向了新的水平，并在中文、德语、意大利语和西班牙语的跨语言 AMR 分析方面取得了新的最高水平。该方法对于 QALD-9 和 BioAMR 的领域自适应作用显著，能够产生与人工标注数据相匹敌的收益。

Dec, 2021