arXiVeri：用 GPT 自动验证表格

Jun, 2023

arXiVeri: Automatic table verification with GPT

Gyungin Shin, Weidi Xie, Samuel Albanie

TL;DR本文介绍了一项新任务：自动表验证（AutoTV），目的是通过交叉引用引证来源验证表中数字数据的准确性，并提出了两个关键领域（表匹配和单元匹配）的性能指标，提出了基于现代大型语言模型的简单基准，并展示了这一任务的复杂性，即使对于当前最先进的语言模型也是如此。

Abstract

Without accurate transcription of numerical data in scientific documents, a scientist cannot draw accurate conclusions. Unfortunately, the process of copying numerical data from one paper to another is prone to h

numerical data table verification arxiveri table matching cell matching

发现论文，激发创造

TabFact：一个用于基于表格的事实验证的大规模数据集

本文介绍 TabFact 数据集，其中包含 118k 人工标注的自然语言陈述，并以 16k 个 Wikipedia 表格作为证据，同时介绍了 Table-BERT 和 LPA，这两种算法都能在半结构化数据情况下进行事实验证，都有优点和不足之处，但是都能被进一步开发优化。

Sep, 2019

开放事实核查中基于表格的联合验证与重新排名

本文介绍了一种结合重新排序和验证模型的开放域结构化数据自动验证方法，包括多种表格，实现了与封闭领域技术水平可比较的表现，并相对启发式检索基准有显著提升，关键词包括：结构化数据，验证方法，开放领域，联合重新排序和验证模型，TabFact 数据集。

Dec, 2020

AVeriTeC：一份集合了网络证据的真实世界主张验证数据集

本文介绍了一个新的数据集 AVeriTeC，包含 4,568 个来自 50 个不同机构的真实事实核查内容，每个内容都包含了来自在线可用资源的支持性证据和文本理由，以及多轮注释过程中的评审结果，提供了一个基于多个问题回答步骤的基线和模型评估，旨在弥补目前自动事实核查数据集的缺陷。

May, 2023

面向科学推理的可控表格到文本生成

我们提供了一个生成符合用户偏好的流畅且逻辑一致的科学表格数据描述的新任务，并通过构建一个具有高亮单元格和相应专业知识库的数据集，为这个方向的研究提供了基准，并提出了一种优于竞争方法的新架构。结果显示，大型模型在生成与用户偏好一致的准确内容方面存在困难。作为首创，我们的工作有望推动科学领域的进一步研究。

Dec, 2023

SemEval-2021 任务 9：科学文档中表格数据的事实验证和证据搜索（SEM-TAB-FACTS）

本研究旨在解决在科技论文中理解表格结构与表格内容，主要通过提供一个包含这些信息的数据集和 SemEval 任务挑战赛中两个子任务的方式来实现，共有 69 个团队参与，19 个成功提交了子任务 A 的结果，12 个成功提交了子任务 B 的结果。

May, 2021

从科学表格中学习推理进行文本生成

本研究引入了 SciGen，一个考虑推理的数据到文本生成任务的数据集。SciGen 是第一个评估生成模型在复杂输入结构下算术推理能力的数据集，并表明表格描述需要考虑表格值的推理。在 SciGen 上进行实验表明，目前数据到文本生成模型的推理能力受限，缺乏适当的自动评估度量。

Apr, 2021

在数据稀缺的约束下，在人工参与机制下的医学科学表格自动生成文本

本文提出了一种新的基于表格到文本的方法，通过自我纠正、复制机制和合成数据增量，增强了该方法的性能。实验证明，该方法选择了显著的生物医学实体和值，以生成相关的文本，同时我们还演示了该系统对新数据集的轻量级适应。人工验证表明，该模型的输出是准确和可靠的。

May, 2022

利用 TAPAS 和迁移学习进行带表格语句验证和证据发现的 SemEval-2021 第 9 任务 Volta

本文基于 TAPAS 模型扩展 BERT 框架以理解表格语义结构，在 SemEval-2021 任务 9 中解决表格事实的声明验证和证据查找问题，并通过在表头行上进行规范化来优化 TAPAS 在子任务 A 中的表现，在子任务 B 中引入不同的 fine-tuning 策略来提高模型准确率，模型在三种分类任务下分别取得了 67.34、72.89 和 62.95 的 F1 分数。

Jun, 2021

一种新的自动形式化方法

自动形式化研究级数学的一个方法是将任务分解为更容易和可接近的子任务：未链接的形式化、实体链接和类型调整。同时，本文还提出了一个用于未链接的形式化的基准数据集 arXiv2Formal，其中包含了从 arXiv.org 的论文中选取的 50 个定理的 Lean 定理证明器的形式化。欢迎社区为该数据集的未来版本做出贡献。

Oct, 2023

素描并完善：向忠实和信息丰富的表格到文本生成迈进

本研究提出了一种基于骨架的两阶段方法，将自回归和非自回归方法相结合用于表格到文本生成中，通过集成骨架的硬约束来提高生成的覆盖率和忠实度，实验结果显示了我们的方法在自动和人工评估中都表现出优越性能。

May, 2021