EMNLPSep, 2019

评估迷雾:双语词典归纳的误导性基准

TL;DR研究跨语言词嵌入的双语词典归纳的任务,发现现有数据集存在的困扰性问题:(1)数据中有 1/4 的专有名词,难以反映 BDI 表现,(2)黄金标准数据存在普遍间隔,对个体语言之间交叉嵌入系统排名和性能差异的总体度的影响,提出未来的研究要么避免从此 BDI 数据集中定量结果中得出结论,要么伴随严格的误差分析的评估。