科技论文中多层表头数值表格类型识别

ACLFeb, 2021

科技论文中多层表头数值表格类型识别

Metric-Type Identification for Multi-Level Header Numerical Tables in Scientific Papers

Lya Hulliyyatus Suadaa, Hidetaka Kamigaito, Manabu Okumura, Hiroya Takamura

TL;DR介绍了一项新的信息提取任务 —— 从多级标题数值表中识别度量类型，提供了来自科学论文的数据集，并提出了两种基于联合学习的神经分类和生成方案，分别采用指针生成器和 BERT 模型，实验表明这两种模型都能很好地处理标题内外的度量类型识别问题。

Abstract

numerical tables are widely used to present experimental results in scientific papers. For table understanding, a metric-type is essential to discriminate numbers in the tables. We introduce a new information extraction task, →

numerical tables metric-type identification neural classification pointer-generator-based models bert-based models

发现论文，激发创造

MultiHiertt: 对多层次表格和文本数据的数值推理

构建一个新的 QA benchmark (MultiHiertt)，使用金融报告构建。包含多个表以及更长的非结构化文本，大部分表格是分层的；提供了复杂的数量推理的细粒度注释；提出了一个新的 QA 模型 MT2Net，它首先应用事实检索来提取相关事实，然后使用推理模块对检索到的事实进行符号推理。与现有基线相比，实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。

Jun, 2022

核度量学习用于混合类型数据聚类

本研究提出了一种使用混合内核的度量方法来衡量数据之间的差异，并利用交叉验证确定最佳的内核带宽，针对包含纯连续型、类别型、混合型数据的模拟和真实数据集，利用该方法对现有的基于距离的聚类算法进行聚类，提高了聚类的准确性。

Jun, 2023

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

科学排行榜构建中的任务、数据集、评估指标和数值得分的识别

本文提出了一种基于 TDMS-IE 框架的自动提取 NLP 论文中任务、数据集、评价指标和得分来自动构建排行榜的方法，实验表明该模型表现优于几个对比算法，是自动构建排行榜的第一步。

Jun, 2019

使用多阶段流程进行表格检测和表格结构识别的多类型 TD-TSR —— 从 OCR 到结构化表格表示中提取文档图像的表格

本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线，可实现表格检测和结构识别的端对端解决方案，利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估，实现了新的最先进技术。

May, 2021

多类分类的度量：概述

本文介绍了多类分类中的一些性能评估指标，旨在帮助开发人员比较不同分类模型或机器学习技术的性能，以及调整不同参数来分析同一模型的行为。

Aug, 2020

结构化预测的评估度量的统一视角

我们提出一个概念框架，统一了不同结构预测任务（例如事件和关系提取，句法和语义解析）的各种评估指标。通过将这些任务的输出表示为某些数据类型的对象，并通过匹配共同子结构，可能跟随标准化，推导出指标。我们演示了如何用这个框架简洁地表达许多任务的常用指标，并显示可以自然地基于输出结构自下而上地推导出新的指标。我们发布了一个库，使得可以派生出新的指标。最后，我们考虑了任务的特定特性如何推动指标设计决策，并建议根据这些动机可能修改现有的指标。

Oct, 2023

特征向量和结构化数据的度量学习综述

本文系统地综述了度量学习的前沿研究进展，着重分析了 Mahalanobis 距离度量学习、非线性度量学习、局部度量学习等新近涌现的强大替代方法，讨论了对于结构化数据的度量学习中仍存在的挑战，旨在给出度量学习近年来的发展方向。

Jun, 2013

ICT 供应链的大型表格数据处理：多任务、机器可解释性方法

提出了一种基于图的表格结构识别（TSR）任务和表格单元格类型分类（CTC）任务的多任务模型，通过使用文本模态和图像模态特征来同时解决这两个任务，旨在将电子文档中的表格数据转化为可机读格式，并为信息提取和解释提供布局和语义信息。实验结果表明，该方法在 ICDAR2013 和 UNLV 数据集上的性能优于现有的方法。

Aug, 2022

TDMSci：一种用于科学文献实体标注的专业语料库，标注对象为任务、数据集和指标

本文为了促进科学出版物摘要和知识发现的研究，提出了一个新的语料库，其中包含来自自然语言处理论文的 2000 个句子的任务、数据集和评估指标的领域专家标注。通过使用简单的数据增强策略，我们报告了 TDM 提取的实验结果，并将我们的标签器应用于 ACL 文集中约 30,000 篇 NLP 论文。

Jan, 2021