本文针对将生成维基百科文章作为一种数据到文本生成任务的问题,创建了一个大规模数据集 WikiTableT,该数据集包含了数以百万计的实例,覆盖了广泛的主题,并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析,结果表明最佳方法能够生成流畅和高质量的文本,但它们在连贯性和真实性方面仍面临挑战,这表明该数据集可以激发未来关于长篇文本生成的研究。
Dec, 2020
Texygen 是一个支持对开放域文本生成模型进行研究的基准测试平台,它实现了大多数文本生成模型,并涵盖了一组用于评估生成文本的多样性、质量和一致性的度量标准。该平台有助于标准化文本生成研究,促进研究人员共享调整优化的开源实现,并改善未来文本生成研究工作的再现性和可靠性。
Feb, 2018
本研究引入了 SciGen,一个考虑推理的数据到文本生成任务的数据集。SciGen 是第一个评估生成模型在复杂输入结构下算术推理能力的数据集,并表明表格描述需要考虑表格值的推理。在 SciGen 上进行实验表明,目前数据到文本生成模型的推理能力受限,缺乏适当的自动评估度量。
Apr, 2021
TabLib 是一个包含着 6.27 亿个表格和 86.7 亿个上下文 token 的庞大数据集,从各种格式的文件中提取而来,为表格模态提供了巨大的潜力。
Oct, 2023
构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下,在实例内分布生成方面胜过基线,并在生成超出分布的数据集时表现更好。
Jun, 2024
该研究关注文本生成的人类评估问题,通过注释设计选择和人类评估数据,提出一种自动化去除噪音注释者的机制,并基于此开发了 GENIE 系统,用于跨不同任务运行标准化的人类评估,提供总排行榜,已在四个核心文本生成任务上进行测试。
Jan, 2021
本文提出了一种新的基于表格到文本的方法,通过自我纠正、复制机制和合成数据增量,增强了该方法的性能。实验证明,该方法选择了显著的生物医学实体和值,以生成相关的文本,同时我们还演示了该系统对新数据集的轻量级适应。人工验证表明,该模型的输出是准确和可靠的。
May, 2022
ToTTo 是一个开放领域的英文表格生成文本的数据集,通过控制生成任务,给定维基百科表格和一组突出显示的表格单元,产生一个句子的描述。
Apr, 2020
TABT5 是编码器 - 解码器模型,可以生成基于表格和文本输入的自然语言文本,结合表格特定的嵌入和预训练,成功地克服了编码器的限制,并在多个领域取得了最新的最佳结果。
Oct, 2022
我们提供了一个生成符合用户偏好的流畅且逻辑一致的科学表格数据描述的新任务,并通过构建一个具有高亮单元格和相应专业知识库的数据集,为这个方向的研究提供了基准,并提出了一种优于竞争方法的新架构。结果显示,大型模型在生成与用户偏好一致的准确内容方面存在困难。作为首创,我们的工作有望推动科学领域的进一步研究。
Dec, 2023