更好的 Smatch = 更好的解析器?AMR 评估不再那么简单
本文提出了一种新的度量标准 S$^2$match,它可以比较 Abstract Meaning Representation (AMR) graphs 并评估 triple matches,与具有类似功能的 Smatch 和 SemBleu 比较后,S$^2$match 具有更好的性能,能够更好地控制偏差。
Jan, 2020
该研究介绍了两种扩展 AMR smatch 评分脚本的方法,即使用 C6.0 基于规则的分类器生成可读的错误频率报告以及结合集成方法选择同一句子的最佳 AMR 图。其中,字符级神经翻译 AMR 解析器在 AMR 解析任务中展现了意外的表现,比其它模型获得更高的 F1 得分,最终实现了对 SemEval-2016 标准集的 62% 和 LDC2015E86 测试集的 67% 的匹配度。
Apr, 2016
通过介绍一种新的 AMR 相似度度量方法 rematch 和一个新的结构相似性评估标准 RARE,本文解决了目前现有的 AMR 度量方法效率低和难以捕捉语义相似度的问题,并在 STB-B 和 SICK-R 基准测试中,rematch 在结构相似性排名和语义相似性上分别位列第二和第一,比其他现有方法更高效。
Apr, 2024
本文介绍了一种简单的算法,可将超句级的共指标注转化为统一的图表达方式,避免了信息合并的信息损失和不协调的问题。通过改进 Smatch 度量方法,使其可以用于比较文档级别的图形,并用它来重新评估最佳发布的文档级 AMR 解析器,同时提供了一个将 AMR 解析器和共指消解系统相结合的管道方法,这为未来的研究提供了一个强大的基准。
Dec, 2021
我们提出了一种名为 SEMBLEU 的强健指标来评估 AMR 解析准确性,并解决了搜索错误问题,该指标在局部和非局部的对应方面都得到了考虑,在句子和语料库级别的初步实验表明,SEMBLEU 与人类判断具有更高的一致性。
May, 2019
我们提出了 Granular AMR Parsing Evaluation Suite (GrAPES),这是一个用于 Abstract Meaning Representation (AMR) 解析的挑战集合,伴随着相应的评估指标。我们的评估套件测试了 AMR 解析器对实际、技术和语言学上感兴趣的一系列现象。
Dec, 2023
通过 Policy Learning 和奖励样本图的 Smatch 得分来丰富 Stack-LSTM 转移式 AMR 解析器的训练,在 AMR-to-text 的对齐和加入注意力机制的基础上补充了预处理的概念识别、命名实体和上下文嵌入,从而实现了与最优 published results 相媲美的高竞争性能。我们进行了深入的研究来研究解析器的每个新组件。
May, 2019
本文研究了 AMR 解析的现状和问题,提出了两种基于 Transformer 模型的集成策略来解决结构约束问题,并强调了计算所有可能预测的 SMATCH 得分的需求。
Jun, 2023
本文提出了一种用于 Abstract Meaning Representation(AMR)的快速且准确的语义相似度计算方法 SMARAGD。使用机器翻译框架预测匹配或使用 Siamese CNN 直接预测 SMATCH 分数,同时在数据增强、AMR 图形匿名化方面进行了实验,成功地降低了误差。
Mar, 2022
本研究提出了一种结合 Smatch-based 集成技术和集成蒸馏的方法,克服银标注数据减少的问题,并将英语解析器的性能推向了新的水平,并在中文、德语、意大利语和西班牙语的跨语言 AMR 分析方面取得了新的最高水平。该方法对于 QALD-9 和 BioAMR 的领域自适应作用显著,能够产生与人工标注数据相匹敌的收益。
Dec, 2021