本文提出了一种生成模型,它将一行从表中映射到一个连续向量,然后通过利用表的语义生成一个自然语言句子,还提出了一种灵活的复制机制以处理表中出现的罕见单词,并在两个综合数据集上取得了较高BLEU-4分数,其中一个数据集包含13,318个解释句子和4,962个表格。
May, 2018
本文提出了一种基于Transformer模型的文本生成框架,以实现表格与文本的一致性,并提出了一种新的自动度量标准来评估一致性,实验证明该框架可以显著超越现有技术。
May, 2020
提出了新的框架:Prototype-to-Generate(P2G),旨在通过使用检索的原型来提高神经表生成文本模型在少样本场景下的性能,并利用IR系统和新型原型选择器共同选择原型以帮助模型弥合表格和文本之间的结构差距。在三个基准数据集上进行的实验结果表明,该文所提出的框架显著提高了各种评估指标的模型性能。
Aug, 2021
本文提出一种基于少样本学习在表格文本生成中应用的新方法AMG,该方法通过对多粒度上下文的关注、动态记忆表格分配状态和综合上下文和记忆状态来生成忠实的文本,实验结果表明,该方法在准确性和连贯性等方面优于其他基准模型。
Mar, 2022
本文提出了一种前缀控制生成器 (Prefix-Controlled Generator) 的方法,应用于神经表格文本生成中的少样本学习问题,该方法使用预训练语言模型,并在输入处加入特定前缀以更好地适应表格结构,同时通过输入特定前缀控制生成的文本的内容和单词顺序,基于 Wikibio 数据集的人类、书籍和歌曲等不同领域的自动和人工评估结果均表明,该方法相对于基线方法取得了实质性的改进。
Aug, 2022
本文提出了一种名为TASD的表结构理解和文本判断方法,采用三层多头自注意力网络实现了以预训练语言模型为基础的文本生成模型,并采用多遍解码器框架增强了表格描述的生成能力,实验证明该方法可以为不同类型的表格生成准确流畅的文本描述。
Jan, 2023
本论文提出PromptMize框架,通过prompt signal和knowledge adapter对pre-trained language models进行few-shot table-to-text generation。实验结果表明较之前的方法有极大优势。
Feb, 2023
本研究研究了大型语言模型在生成结构化表格数据文本时的性能,证明了大型语言模型在文本生成领域中的潜力和应用,并探讨了大型语言模型在文本生成质量自动评估及模型优化中的应用。
May, 2023
通过评估四个最先进的大语言模型在生成结构化数据表方面的能力,本研究发现大语言模型在表格生成方面仍然存在挑战,GPT-4的准确率最高为19.6%。同时,研究还揭示了表格的各种属性(如大小、受欢迎程度和数值内容)如何影响生成性能,从而为未来研究提供了坚实的评估框架。
Jun, 2024
本研究针对基于大型语言模型的表格数据生成中,特征名称缺乏足够语义上下文的问题,提出通过领域特定的见解来丰富提示,从而提高数据生成的质量和效率。研究发现,经过丰富上下文的提示显著改善了数据生成的质量与训练效率。
Sep, 2024