Apr, 2023

公共文件信息提取基准中的信息冗余和偏差

TL;DR本研究通过对公共基准数据集 SROIE 和 FUNSD 进行实验,揭示了这两个数据集中存在的训练和测试文件的显著相似性,并提出了重采样策略以更好地评价模型对于具有不同文档注释的真实用例的泛化能力。模型在调整后的划分上效果下降 10.5% 至 SROIE 和 3.5% 至 FUNSD。