SemBleu: AMR 解析评估的鲁棒度量

ACLMay, 2019

SemBleu: A Robust Metric for AMR Parsing Evaluation

Linfeng Song, Daniel Gildea

TL;DR我们提出了一种名为 SEMBLEU 的强健指标来评估 AMR 解析准确性，并解决了搜索错误问题，该指标在局部和非局部的对应方面都得到了考虑，在句子和语料库级别的初步实验表明，SEMBLEU 与人类判断具有更高的一致性。

Abstract

Evaluating amr parsing accuracy involves comparing pairs of AMR graphs. The major evaluation metric, SMATCH (Cai and Knight, 2013), searches for one-to-one mappings between the nodes of two AMRs with a greedy hil

amr parsing evaluation metric semableu search errors corpus levels

发现论文，激发创造

基于原则的 AMR 相似度评估

本文提出了一种新的度量标准 S$^2$match，它可以比较 Abstract Meaning Representation (AMR) graphs 并评估 triple matches，与具有类似功能的 Smatch 和 SemBleu 比较后，S$^2$match 具有更好的性能，能够更好地控制偏差。

Jan, 2020

更好的 Smatch = 更好的解析器？AMR 评估不再那么简单

本研究对两种 AMR 解析器进行了分析，将其与 Smatch 和其他 AMR 指标以及人类质量评估进行了比较，发现高 Smatch 分数不一定表示一致的解析质量，并且经常出现结构上小的、但语义上不可接受的错误，从而建议使用宏统计、其他指标和更多的人类分析来评估解析器的质量差异。

Oct, 2022

RIGA 在 SemEval-2016 任务 8 中：Smatch 扩展和字符级神经机器翻译对 AMR 解析准确性的影响

该研究介绍了两种扩展 AMR smatch 评分脚本的方法，即使用 C6.0 基于规则的分类器生成可读的错误频率报告以及结合集成方法选择同一句子的最佳 AMR 图。其中，字符级神经翻译 AMR 解析器在 AMR 解析任务中展现了意外的表现，比其它模型获得更高的 F1 得分，最终实现了对 SemEval-2016 标准集的 62% 和 LDC2015E86 测试集的 67% 的匹配度。

Apr, 2016

SMARAGD: 合成的 sMatch 用于准确快速的 AMR 图距离

本文提出了一种用于 Abstract Meaning Representation（AMR）的快速且准确的语义相似度计算方法 SMARAGD。使用机器翻译框架预测匹配或使用 Siamese CNN 直接预测 SMATCH 分数，同时在数据增强、AMR 图形匿名化方面进行了实验，成功地降低了误差。

Mar, 2022

重新匹配：改善结构和语义相似度的本地知识图匹配的鲁棒且高效方法

通过介绍一种新的 AMR 相似度度量方法 rematch 和一个新的结构相似性评估标准 RARE，本文解决了目前现有的 AMR 度量方法效率低和难以捕捉语义相似度的问题，并在 STB-B 和 SICK-R 基准测试中，rematch 在结构相似性排名和语义相似性上分别位列第二和第一，比其他现有方法更高效。

Apr, 2024

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

SMATCH++：语义图标准化和扩展评估

该文介绍了 Smach 指标存在的问题，将其分为三个模块，分别为 pre-processing, alignment 和 scoring, 并分别提出应对策略，最终实现了对语义图解析系统的更高效和更公平的评估。

May, 2023

BAMBOO 中的 Weisfeiler-Leman：新型 AMR 图度量及 AMR 图相似性基准

本文提出了新型的 Weisfeiler-Leman AMR 相似度度量方法，可以匹配上下文相关子结构，并在节点之间引入 n:m 对齐，同时提出了用于基于图形 MR 相似度测量的 BAMBOO 基准测试，并通过对之前的度量方法和本研究中的度量方法进行分析，结果表明我们提出的新型指标可能成为未来工作的强大基准线。

Aug, 2021

DocAMR: 多句 AMR 表示和评估

本文介绍了一种简单的算法，可将超句级的共指标注转化为统一的图表达方式，避免了信息合并的信息损失和不协调的问题。通过改进 Smatch 度量方法，使其可以用于比较文档级别的图形，并用它来重新评估最佳发布的文档级 AMR 解析器，同时提供了一个将 AMR 解析器和共指消解系统相结合的管道方法，这为未来的研究提供了一个强大的基准。

Dec, 2021

基于语义相似度评分的面向意义的自然语言生成测度评估动态、解释性清单

本研究旨在支持对生成文本的质量评估，并针对属性更相关性的 NLG 评估指标进行比较评估，提出了一种 AMR-based CheckList 方法，用于意义相关的语言现象，设计了 GraCo 评估指标，使用 AMR 计算词汇凝聚图，表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。

May, 2022