衡量和缩小语言模型中的组合性差距

Oct, 2022

衡量和缩小语言模型中的组合性差距

Measuring and Narrowing the Compositionality Gap in Language Models

Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith...

TL;DR探究了语言模型在对复合性推理任务中的表现，提出了评估模型的整体解决方案的组成性差异比率，并发现随着模型大小的增加，其单次跳问题回答的性能比多次跳问题更快提高，而提供良好的渐进提示可以缩小这种差距，其中 self-ask 方法最近进一步提高了精度。

Abstract

We investigate the ability of language models to perform compositional reasoning tasks where the overall solution depends on correctly composing the answers to sub-problems. We measure how often models can correctly answer all sub-problems but not generate the overall solution, a ratio

language models compositional reasoning gpt-3 elicitive prompting self-ask

发现论文，激发创造

探索大型语言模型在数学推理中的组合不足

大型语言模型在数学推理方面研究了系统组合性，通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap，发现虽然大型语言模型具备所需知识的两个组成部分，但它们不会自发地组合起来处理这些新问题，通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷，但系统的组合性仍然是大型语言模型面临的一个未解决挑战。

May, 2024

组合问题不需要多跳推理

在多次阅读和推理的问题中，通过 HotpotQA 我们证明单次推理可以解决比之前认为的更多的数据集并且设计了一个基于 BERT 的单次推理 RC 模型，达到了 67 个 F1 值，在多次推理的错误分析中这些结果提示我们应该更加注重证据在多次推理中的作用，可能甚至转向信息检索风格评估大而多样的证据收集。

Jun, 2019

教小型语言模型如何推广到未见过的组合问题

我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法，并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。

Aug, 2023

语言模型零样本函数组合性的探索

本文探讨了预训练语言模型的功能组合性问题，并指出当前的 PLMs（例如 GPT-2 和 T5）还没有具有功能组合性，远未达到人类级别的泛化能力。同时，对于零样本功能组合的语言模型提出了研究方向。

Mar, 2023

自然语言复合性之悖论：基于神经机器翻译的案例研究

本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响，结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。

Aug, 2021

衡量视频问答的组成一致性

本文开发了一个问题分解引擎，能将组合问题分解为子问题的有向无环图。使用问题图，我们评估了三个最先进的模型，并使用一组新的组成一致性指标。我们发现，这些模型无法正确地通过大多数构图进行推理，或者依赖于错误推理来获得答案，并在中间的推理步骤失败时频繁地自相矛盾或达到高准确度。

Apr, 2022

基于语言模型的组合概括

通过扩展语义解析的组成概括工作，我们为生成与知识图谱配对的自然语言问题开发了一种方法，以在不受限于语言模型权重隐式编码的信息的同时，对这些模型从知识图谱中学习和概括程度进行控制性评估，我们发现现有的将语言模型与知识图谱组合的方法在未见过长度序列和新组合的基础组件方面存在泛化问题，因此，我们希望我们的工作和发布的数据集能够促进未来研究并探索如何更好地将语言模型与结构化知识表示相结合的方法。

Jun, 2024

从 Frege 到 chatGPT：语言、认知和深度神经网络中的组合性

人工智能中的大型语言模型和深度神经网络通过学习组合性处理和元学习的方式，展示了复杂的认知行为，为人类认知研究提供了新的视角和可能性。

May, 2024

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022

大型语言模型的组合语义解析

通过逐步提示的基于句法分析的分解，本研究发现了更多语义分析任务中的挑战。这一最优方法使我们在 CFQ 上取得了最新的技术成果，同时只需要传统方法所需训练数据的 1％。由于我们方法的普适性，我们期望类似的方法将在知识密集型应用中取得新的成果。

Sep, 2022