Apr, 2024

合成逼真的数据进行表格识别

TL;DR基于中国金融公告的表格结构和内容,提出一种用于表格识别的新型注释数据综合方法,利用现有复杂表格的结构和内容,有效地创建接近目标领域中真实风格的表格。借助这种方法,构建了首个广泛的金融领域表格注释数据集,用于训练深度学习的表格识别模型,同时建立了中国金融公告领域中现实世界复杂表格的基准测试,用于评估在模型上训练了我们合成数据的性能,验证了方法的实用性和有效性。此外,通过增加跨越多个单元格的表格比例,将综合方法应用于从英文金融公告中提取的 FinTabNet 数据集,实验证明在表格识别中,通过在这个扩充数据集上训练的模型性能得到全面提升,尤其是在识别具有跨越多个单元格的表格方面。