BriefGPT.xyz
Ask
alpha
关键词
semi-structured documents
搜索结果 - 4
TransDocAnalyser:法律领域离线半结构手写文档分析框架
本研究提出了第一个针对法律领域的半结构化文档分析数据集,称为 FIR 数据集,并使用 Faster-RCNN 和 Vision Transformers 构建了端到端的离线处理框架,实现了印刷体和手写体文本的边界定位、标注和识别,通过针对入
→
PDF
a year ago
语言模型实现简单系统,用于生成异构数据湖结构化视图
本文介绍 Evaporate 和 Evaporate-code+ 系统,用大的语言模型库开发这些系统可以在保证较低成本的同时提高提取数据质量,并且在处理了一系列文档的情况下达到了比现有技术更好的性能.
PDF
a year ago
MM
利用文本分析和版面特征从扫描的发票图像中提取信息
OCRMiner 系统使用文本分析技术与布局特征相结合的方法从扫描文档图像中提取 (半) 结构化文档的索引元数据。该系统由多个相互连接的模块组成,使用开源 OCR 系统,其英文数据召回率达 90%,捷克语数据召回率为 88%。
PDF
2 years ago
EMNLP
半结构化文档图像的高性价比端到端信息提取
本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式,将现有的基于流水线的 IE 系统转变为端到端系统的尝试,着重解决了大规模实际部署所涉及的实际挑战,并证明了单个端到端 IE 系统仍然能够实现竞争性能。
PDF
3 years ago
Prev
Next