数据到文本生成的组合推广

Dec, 2023

Compositional Generalization for Data-to-Text Generation

Xinnuo Xu, Ivan Titov, Mirella Lapata

TL;DR数据到文本生成涉及将结构化数据转化为连贯的文本描述，本论文提出了一种解决复合概括问题的新模型，通过将谓词聚类成组，在生成文本时逐句依赖于一组谓词，显著优于基线模型 T5 的各种评估指标，尤其在维护对输入的忠实度指标上提升了 31%。

Abstract

data-to-text generation involves transforming structured data, often represented as predicate-argument tuples, into coherent textual descriptions. Despite recent advances, systems still struggle when confronted w

data-to-text generation coherent textual descriptions compositional generalisation benchmark clustering predicates

发现论文，激发创造

通过组件对齐测量和提高文本到 SQL 中的组合通用性

本文介绍了如何通过分句和 SQL 子句的注释构造一个新的数据集 Spider-SS，然后将 sub-sentences 不同组合构成一个新的数据集 Spider-CG，用于测试模型的组成泛化能力。实验表明，现有模型在 Spider-CG 上表现出显著的性能下降，我们改进了一些最先进的模型在 Spider-SS 上进行训练，提高了泛化性能。

May, 2022

使用自我训练提高数据到文本生成的组合泛化能力

本文研究了结构化意义表示到自然语言生成中 T5 模型的泛化问题，提出了基于模板的输入表示和基于 fine-tuned BLEURT 的自训练方法来改善模型的泛化和性能，在少样本场景下通过常用的 SGD 和 Weather 基准测试取得了比强基线模型 46% 以上的提升和 73% 以上的错误率降低。

Oct, 2021

多标签文本分类的组合泛化：一种数据增强方法

通过创建独特的数据集，评估现有多标签文本分类模型对复杂概念的组合泛化能力，在此基础上引入了数据增强方法，利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明，该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力，两种生成模型均超过了其他文本生成基准。

Dec, 2023

探索上下文依赖文本到 SQL 解析中的组合泛化

该文研究了文本到 SQL 的组成归纳泛化问题，通过提出新的标准数据集 CoSQL-CG 和 SParC-CG，提出了一种基于 p-align 的改进方法，并证明了其有效性。

May, 2023

组合推理需要组合分析器

该研究系统比较了序列到序列模型和基于组合原则的模型在 COGS 语料库上处理组合泛化能力的能力，在结构泛化任务中，基于序列的模型表现接近零，而组成模型在结构泛化任务中表现接近完美，这表明结构泛化是组成泛化的关键度量，需要能够处理复杂结构的模型。

Feb, 2022

图像字幕中的组合泛化

该论文研究了图像编码模型的组合推广问题，使用多任务模型相结合的方法，结合了描述生成和图像 - 句子排序，并使用重新排序的解码机制，该模型在描述未见过的概念时比现有现有模型表现更好。

Sep, 2019

通过结构标注提高分类任务中的组合泛化能力

本文研究了复合推理在分类任务中的应用，并提出结构提示（如句法树和实体链接）对于解决神经模型复合推理问题具有较好的效果。

Jun, 2021

神经机器翻译中的结构泛化评估

本研究探讨了机器翻译和语义解析中的复合通用性问题，并发现神经机器翻译模型在句法结构的通用性上存在困难，而语义解析和机器翻译具有不同的性能趋势。

Jun, 2024

大型语言模型中面向组合通用语义解析的研究综述

本文对最近在分析、方法和评估方案上的进展进行了综述，为从业者和研究人员在这一领域提供了一个起点。

Apr, 2024

神经序列模型的组合泛化能力再探讨

本文针对基础的 seq-to-seq 模型缺乏组合概括能力的问题，重点讨论了使用一次性原语概括来增强这种能力的方法，发现通过修改训练数据的方式，能够使标准的 seq-to-seq 模型实现接近完美的概括能力表现，并且对该现象进行了详细的实证分析，指出了模型的概括性能对于训练数据的特征非常敏感，因而应该在设计这样的基准测试时仔细考虑训练数据的选择。

Mar, 2022