SemBleu: AMR 解析评估的鲁棒度量
本文提出了一种新的度量标准 S$^2$match,它可以比较 Abstract Meaning Representation (AMR) graphs 并评估 triple matches,与具有类似功能的 Smatch 和 SemBleu 比较后,S$^2$match 具有更好的性能,能够更好地控制偏差。
Jan, 2020
本研究对两种 AMR 解析器进行了分析,将其与 Smatch 和其他 AMR 指标以及人类质量评估进行了比较,发现高 Smatch 分数不一定表示一致的解析质量,并且经常出现结构上小的、但语义上不可接受的错误,从而建议使用宏统计、其他指标和更多的人类分析来评估解析器的质量差异。
Oct, 2022
该研究介绍了两种扩展 AMR smatch 评分脚本的方法,即使用 C6.0 基于规则的分类器生成可读的错误频率报告以及结合集成方法选择同一句子的最佳 AMR 图。其中,字符级神经翻译 AMR 解析器在 AMR 解析任务中展现了意外的表现,比其它模型获得更高的 F1 得分,最终实现了对 SemEval-2016 标准集的 62% 和 LDC2015E86 测试集的 67% 的匹配度。
Apr, 2016
本文提出了一种用于 Abstract Meaning Representation(AMR)的快速且准确的语义相似度计算方法 SMARAGD。使用机器翻译框架预测匹配或使用 Siamese CNN 直接预测 SMATCH 分数,同时在数据增强、AMR 图形匿名化方面进行了实验,成功地降低了误差。
Mar, 2022
通过介绍一种新的 AMR 相似度度量方法 rematch 和一个新的结构相似性评估标准 RARE,本文解决了目前现有的 AMR 度量方法效率低和难以捕捉语义相似度的问题,并在 STB-B 和 SICK-R 基准测试中,rematch 在结构相似性排名和语义相似性上分别位列第二和第一,比其他现有方法更高效。
Apr, 2024
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
该文介绍了 Smach 指标存在的问题,将其分为三个模块,分别为 pre-processing, alignment 和 scoring, 并分别提出应对策略,最终实现了对语义图解析系统的更高效和更公平的评估。
May, 2023
本文提出了新型的 Weisfeiler-Leman AMR 相似度度量方法,可以匹配上下文相关子结构,并在节点之间引入 n:m 对齐,同时提出了用于基于图形 MR 相似度测量的 BAMBOO 基准测试,并通过对之前的度量方法和本研究中的度量方法进行分析,结果表明我们提出的新型指标可能成为未来工作的强大基准线。
Aug, 2021
本文介绍了一种简单的算法,可将超句级的共指标注转化为统一的图表达方式,避免了信息合并的信息损失和不协调的问题。通过改进 Smatch 度量方法,使其可以用于比较文档级别的图形,并用它来重新评估最佳发布的文档级 AMR 解析器,同时提供了一个将 AMR 解析器和共指消解系统相结合的管道方法,这为未来的研究提供了一个强大的基准。
Dec, 2021
本研究旨在支持对生成文本的质量评估,并针对属性更相关性的 NLG 评估指标进行比较评估,提出了一种 AMR-based CheckList 方法,用于意义相关的语言现象,设计了 GraCo 评估指标,使用 AMR 计算词汇凝聚图,表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。
May, 2022