Nov, 2022

基于 Web 的视觉语料库构建技术报告,用于视觉文档理解

TL;DR该论文介绍了一个名为 Web-based Visual Corpus Builder 的数据集生成引擎,可以从原始 Wikipedia HTML 转储中准确构建大规模的视觉语料库,并验证其生成的数据可以覆盖广泛的上下文和知识,成为构建强大的视觉文档理解(VDU)骨干的有力工具。