BriefGPT.xyz
大模型
Ask
alpha
关键词
business documents
搜索结果 - 5
KVP10k: 商业文件中键值对提取的全面数据集
最近几年来,从商业文件中提取信息的挑战已成为一项关键任务,在许多领域找到了应用。本文引起了工业界和学术界的广泛兴趣,突显了其在当前技术环境中的重要性。与大多数现有数据集和基准不同,我们的重点是在没有预先定义的键的情况下发现键值对,通过导航复
→
PDF
2 months ago
TabIQA:企业文档图像中针对表格的问答
介绍了一种新的流程 TabIQA,它使用最先进的深度学习技术从图像中提取表格内容和结构信息,能够回答与数字数据、文本信息和结构化表格相关的各种问题,并且在回答与表格相关的问题方面取得了良好的成绩。
PDF
a year ago
DocILE 文件信息定位与提取基准测试
本文介绍了 DocILE 数据集及其应用,它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件,旨在为关键信息定位和提取以及行项目识别等任务提供基准,并提供了几个基线模型,包括 RoBERTa、LayoutLM
→
PDF
a year ago
BusiNet -- 业务文档轻量快速文本检测网络
本文介绍了一个名为 BusiNet 的检测网络,旨在用于 OCR 商业文件。BusiNet 使用特殊的合成数据集处理扫描文档的损坏和噪音,并采用对抗性训练策略使模型对未见过的噪声具有鲁棒性。我们对公开数据集进行评估,证明其对 OCR 商业文
→
PDF
2 years ago
联合学习跨度抽取与序列标注,用于商务文档信息提取
本文介绍了一种新的信息抽取模型,能够同时处理长文档和稀疏信息,通过跨度抽取和序列标注两种方法的结合来进行训练和优化,实验结果表明该模型在英语和日语的四个商业数据集上取得了良好的结果,速度也比标准跨度抽取方法更快。
PDF
2 years ago
Prev
Next