TabGenie：一款用于表格到文本生成的工具包

ACLFeb, 2023

TabGenie：一款用于表格到文本生成的工具包

TabGenie: A Toolkit for Table-to-Text Generation

Zdeněk Kasner, Ekaterina Garanina, Ondřej Plátek, Ondřej Dušek

TL;DRTabGenie 是一个工具包，使用统一的表格文本生成框架使研究人员能够探索、预处理和分析多种数据到文本生成的数据集。

Abstract

Heterogenity of data-to-text generation datasets limits the research on data-to-text generation systems. We present tabgenie - a toolkit w

data-to-text generation tabgenie table-to-text generation unified framework dataset analysis

发现论文，激发创造

WikiTableT: 为生成维基百科文章章节而设计的大规模数据转文本语料库

本文针对将生成维基百科文章作为一种数据到文本生成任务的问题，创建了一个大规模数据集 WikiTableT，该数据集包含了数以百万计的实例，覆盖了广泛的主题，并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析，结果表明最佳方法能够生成流畅和高质量的文本，但它们在连贯性和真实性方面仍面临挑战，这表明该数据集可以激发未来关于长篇文本生成的研究。

Dec, 2020

Texygen: 文本生成模型基准测试平台

Texygen 是一个支持对开放域文本生成模型进行研究的基准测试平台，它实现了大多数文本生成模型，并涵盖了一组用于评估生成文本的多样性、质量和一致性的度量标准。该平台有助于标准化文本生成研究，促进研究人员共享调整优化的开源实现，并改善未来文本生成研究工作的再现性和可靠性。

Feb, 2018

从科学表格中学习推理进行文本生成

本研究引入了 SciGen，一个考虑推理的数据到文本生成任务的数据集。SciGen 是第一个评估生成模型在复杂输入结构下算术推理能力的数据集，并表明表格描述需要考虑表格值的推理。在 SciGen 上进行实验表明，目前数据到文本生成模型的推理能力受限，缺乏适当的自动评估度量。

Apr, 2021

TabLib: 一个包含上下文的 6.27 亿个表格数据集

TabLib 是一个包含着 6.27 亿个表格和 86.7 亿个上下文 token 的庞大数据集，从各种格式的文件中提取而来，为表格模态提供了巨大的潜力。

Oct, 2023

LaTable: 大型表格模型的探索

构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下，在实例内分布生成方面胜过基线，并在生成超出分布的数据集时表现更好。

Jun, 2024

GENIE：面向文本生成的可重复和标准化人类评估技术

该研究关注文本生成的人类评估问题，通过注释设计选择和人类评估数据，提出一种自动化去除噪音注释者的机制，并基于此开发了 GENIE 系统，用于跨不同任务运行标准化的人类评估，提供总排行榜，已在四个核心文本生成任务上进行测试。

Jan, 2021

在数据稀缺的约束下，在人工参与机制下的医学科学表格自动生成文本

本文提出了一种新的基于表格到文本的方法，通过自我纠正、复制机制和合成数据增量，增强了该方法的性能。实验证明，该方法选择了显著的生物医学实体和值，以生成相关的文本，同时我们还演示了该系统对新数据集的轻量级适应。人工验证表明，该模型的输出是准确和可靠的。

May, 2022

ToTTo：一种受控表格转文本生成数据集

ToTTo 是一个开放领域的英文表格生成文本的数据集，通过控制生成任务，给定维基百科表格和一组突出显示的表格单元，产生一个句子的描述。

Apr, 2020

使用 TabT5 进行表格到文本生成和预训练

TABT5 是编码器 - 解码器模型，可以生成基于表格和文本输入的自然语言文本，结合表格特定的嵌入和预训练，成功地克服了编码器的限制，并在多个领域取得了最新的最佳结果。

Oct, 2022

面向科学推理的可控表格到文本生成

我们提供了一个生成符合用户偏好的流畅且逻辑一致的科学表格数据描述的新任务，并通过构建一个具有高亮单元格和相应专业知识库的数据集，为这个方向的研究提供了基准，并提出了一种优于竞争方法的新架构。结果显示，大型模型在生成与用户偏好一致的准确内容方面存在困难。作为首创，我们的工作有望推动科学领域的进一步研究。

Dec, 2023