Jun, 2023

使用预算感知的黑盒逼近技术清理文档图像

TL;DR本文提出了两种样本选择算法,利用少于原系统 OCR 引擎查询 10% 的数据在不影响系统性能的情况下降低 OCR 预处理器的训练时间,并提出了简单的排名技术以从训练数据集中修剪 30% 的文档图像。