Oct, 2022

更好的 Smatch = 更好的解析器?AMR 评估不再那么简单

TL;DR本研究对两种 AMR 解析器进行了分析,将其与 Smatch 和其他 AMR 指标以及人类质量评估进行了比较,发现高 Smatch 分数不一定表示一致的解析质量,并且经常出现结构上小的、但语义上不可接受的错误,从而建议使用宏统计、其他指标和更多的人类分析来评估解析器的质量差异。