May, 2024

轻量级空间建模以从文件中提取组合信息

TL;DR我们提出了一种新的基于K最近邻图的空间偏差的注意力计算方法 KNN-former,该方法限制实体的注意力仅在K最近邻图定义的局部半径内;我们还使用组合匹配来解决多对一映射的问题,此外,与现有方法相比,我们的方法在可训练参数的数量方面更加高效。虽然如此,在各种数据集上的实验证明,我们的方法在大多数实体类型上优于基线方法。许多现实世界的文档具有组合特性,可以作为归纳偏差来提高提取准确性,但现有数据集没有涵盖这些文档。为了促进未来对这些类型的文档的研究,我们发布了一个涵盖多样化模板和语言的新ID文档数据集,并对现有数据集进行了增强的注释。