Sep, 2021

PubTables-1M: 实现从非结构化文档中全面提取表格

TL;DR本研究针对表格结构推断和从非结构化文件中提取数据的机器学习问题,提出了一种新的数据集 PubTables-1M,并通过使用一种新颖的规范化程序来解决之前数据集中出现的一个重要问题 —— 过度分割,发现这些改进导致训练性能显着提高,表结构识别的可靠性评估也更加可信,最终会对对象检测产生积极影响。