Jun, 2023

TransDocAnalyser:法律领域离线半结构手写文档分析框架

TL;DR本研究提出了第一个针对法律领域的半结构化文档分析数据集,称为 FIR 数据集,并使用 Faster-RCNN 和 Vision Transformers 构建了端到端的离线处理框架,实现了印刷体和手写体文本的边界定位、标注和识别,通过针对入警报文中特有词汇的领域特定分词器训练 Transformer-based decoder 架构,达到了在 FIR 数据集上超过既有模型的最新结果