通过条件问答生成表格的 gTBLS

Mar, 2024

gTBLS: Generating Tables from Text by Conditional Question Answering

Anirudh Sundar, Christopher Richardson, Larry Heck

TL;DR通过生成表格的两个阶段方法（Generative Tables，gTBLS），从结构化文本中提取表格结构和表格内容，并利用预训练大型语言模型的零样本配置，改进先前方法并在多个数据集上提高 BERTScore 达 10% 至 20%。

Abstract

Distilling large, unstructured text into a structured, condensed form such as tables is an open research problem. One of the primary challenges in automatically generating tables is ensuring their syntactic valid

structured text tables two-stage approach generative tables pre-trained large language models

发现论文，激发创造

iTBLS：一个涉及表格信息的互动对话数据集

本研究介绍了 Interactive Tables (iTBLS)，这是一种包含科学文章中表格的交互式对话数据集，旨在通过 AI 支持的多任务表格能力促进人工智能与人类的协作问题解决。相较于先前将交互建模为事实型问答或过程合成的工作，iTBLS 将交互的范围扩展到包括数学推理、自然语言操作以及通过将交互细分为解释、修改或生成三个任务，扩展现有表格的自然语言对话。此外，本文还介绍了一套基准方案来处理 iTBLS，利用零样本提示和适用于不同计算情况的参数高效微调。我们还引入了一种新颖的多步骤方法，并展示了如何与参数高效微调结合使用，以在 iTBLS 上实现最新的成果；在解释、修改和生成方面，我们表现优于标准的参数高效微调方法，分别提高了 15％、18％和 38％。

Apr, 2024

cTBL: 为对话表格增强大型语言模型

本论文介绍了一种名为 “Conversational Tables” 的方法，综合使用了文本和非文本信息，利用 Transformer 编码器 - 解码器来检索表格信息，并生成基于所检索到信息的对话响应，实验结果表明在 HyrbiDialogue 数据集上取得了相对 5％左右的 Top-1 和 Top-3 准确度提高，并在响应生成上取得了 46％左右的 ROUGE 分数相对提高和更好的人类评估结果。

Mar, 2023

从语言模型的参数化知识生成表格

通过评估四个最先进的大语言模型在生成结构化数据表方面的能力，本研究发现大语言模型在表格生成方面仍然存在挑战，GPT-4 的准确率最高为 19.6%。同时，研究还揭示了表格的各种属性（如大小、受欢迎程度和数值内容）如何影响生成性能，从而为未来研究提供了坚实的评估框架。

Jun, 2024

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

可迁移的表格问答

本文设计了新的挑战测试基准 WikiSQL-TS 和 WikiTQ-TS，模拟了实际主题转移场景，并提出了适用于 TableQA 的 T3QA（主题可转移的表格问题回答）方案，包括注入特定主题词汇、生成主题专用训练数据生成程序和逻辑形式重新排序器。我们认为我们的主题分裂基准将会促进更好的部署的鲁棒的 TableQA 解决方案。

Sep, 2021

大型语言模型是复杂的表格解析器

本文中，我们提出了在复杂表格问答中引入 GPT-3.5 的方法来解决相关挑战，通过重构复杂表格为元组并使用特定的提示设计对话框，将每个单元格的层次结构、位置信息和内容编码为一个元组，并通过加强提示模板的解释说明每个元组的含义和任务的逻辑推理过程，有效提高了 GPT-3.5 对复杂表格的层次结构感知能力，从而更好地解析复杂表格。通过大量的实验证明，我们的方法在复杂表格问答数据集 HiTAB 和航空领域数据集 AIT-QA 上显著优于先前的工作，取得了最先进的性能。

Dec, 2023

内容增强的基于 BERT 的文本到 SQL 生成

本文提出了一种简单的方法，利用表格内容为基于 BERT 的模型解决文本到 SQL 的问题。通过观察表格内容与问题中的一些单词匹配以及表格标题也与问题中的一些单词匹配，我们为深度模型编码了两个额外的特征向量。我们在 WikiSQL 数据集上进行了测试，并在逻辑形式和执行准确性方面比 BERT 基线提高了 3.7％，成为业内领先者。

Oct, 2019

在数据稀缺的约束下，在人工参与机制下的医学科学表格自动生成文本

本文提出了一种新的基于表格到文本的方法，通过自我纠正、复制机制和合成数据增量，增强了该方法的性能。实验证明，该方法选择了显著的生物医学实体和值，以生成相关的文本，同时我们还演示了该系统对新数据集的轻量级适应。人工验证表明，该模型的输出是准确和可靠的。

May, 2022

具有结构感知等变学习的强健 (可控) 表格到文本生成

提出一种基于自我注意力机制的等变学习框架，通过在单元格层面有效表达表格内容之间的关系，并保证模型对内容不变的结构变换具有鲁棒性以提高 table-to-text 生成模型在 ToTTo 和 HiTab 数据集上的性能。

May, 2022

利用预训练语言模型实现表格到文本的生成：一种表格结构理解和文本构思的方法

本文提出了一种名为 TASD 的表结构理解和文本判断方法，采用三层多头自注意力网络实现了以预训练语言模型为基础的文本生成模型，并采用多遍解码器框架增强了表格描述的生成能力，实验证明该方法可以为不同类型的表格生成准确流畅的文本描述。

Jan, 2023