科技论文中多层表头数值表格类型识别
构建一个新的 QA benchmark (MultiHiertt),使用金融报告构建。包含多个表以及更长的非结构化文本,大部分表格是分层的;提供了复杂的数量推理的细粒度注释;提出了一个新的 QA 模型 MT2Net,它首先应用事实检索来提取相关事实,然后使用推理模块对检索到的事实进行符号推理。与现有基线相比,实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。
Jun, 2022
本研究提出了一种使用混合内核的度量方法来衡量数据之间的差异,并利用交叉验证确定最佳的内核带宽,针对包含纯连续型、类别型、混合型数据的模拟和真实数据集,利用该方法对现有的基于距离的聚类算法进行聚类,提高了聚类的准确性。
Jun, 2023
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
本文提出了一种基于 TDMS-IE 框架的自动提取 NLP 论文中任务、数据集、评价指标和得分来自动构建排行榜的方法,实验表明该模型表现优于几个对比算法,是自动构建排行榜的第一步。
Jun, 2019
本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线,可实现表格检测和结构识别的端对端解决方案,利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估,实现了新的最先进技术。
May, 2021
我们提出一个概念框架,统一了不同结构预测任务(例如事件和关系提取,句法和语义解析)的各种评估指标。通过将这些任务的输出表示为某些数据类型的对象,并通过匹配共同子结构,可能跟随标准化,推导出指标。我们演示了如何用这个框架简洁地表达许多任务的常用指标,并显示可以自然地基于输出结构自下而上地推导出新的指标。我们发布了一个库,使得可以派生出新的指标。最后,我们考虑了任务的特定特性如何推动指标设计决策,并建议根据这些动机可能修改现有的指标。
Oct, 2023
本文系统地综述了度量学习的前沿研究进展,着重分析了 Mahalanobis 距离度量学习、非线性度量学习、局部度量学习等新近涌现的强大替代方法,讨论了对于结构化数据的度量学习中仍存在的挑战,旨在给出度量学习近年来的发展方向。
Jun, 2013
提出了一种基于图的表格结构识别(TSR)任务和表格单元格类型分类(CTC)任务的多任务模型,通过使用文本模态和图像模态特征来同时解决这两个任务,旨在将电子文档中的表格数据转化为可机读格式,并为信息提取和解释提供布局和语义信息。实验结果表明,该方法在 ICDAR2013 和 UNLV 数据集上的性能优于现有的方法。
Aug, 2022
本文为了促进科学出版物摘要和知识发现的研究,提出了一个新的语料库,其中包含来自自然语言处理论文的 2000 个句子的任务、数据集和评估指标的领域专家标注。通过使用简单的数据增强策略,我们报告了 TDM 提取的实验结果,并将我们的标签器应用于 ACL 文集中约 30,000 篇 NLP 论文。
Jan, 2021