Transformer中的推理:减轻伪相关性和推理捷径
本论文研究一种新的知识表示方法,采用自然语言句子代替形式化表示,并使用合成数据训练Transformer模型进行推理。该方法有望提供一种新的“软定理证明器”的运作方式,用于问题回答,实现解释性、校正性和反事实推理等新功能。
Feb, 2020
研究Transformer语言模型在自然语言中进行基于逻辑推理的任务,探究它们的系统泛化能力,发现其在逆向推理证明方面表现更优,并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了TLM在逻辑推理中的系统泛化行为,并且对其核心推理策略的深入研究提出了启示。
Sep, 2020
本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集,以研究transformer模型的推理能力,发现这些模型在解决困难的NLSat问题方面表现出非常强的能力,但仍然存在限制,包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。
Dec, 2021
本文对深度学习在自然语言处理(NLP)方面的最新应用进行了调查研究,发现transformer-based language models在检测受控自然语言片段的有效推理方面表现出明显的过拟合问题,未能获取主导推理的逻辑原则。
Nov, 2022
调查了Transformer大型语言模型在涉及抽象符号的关系推理任务中的能力。对于(i)回归任务,我们证明了Transformer在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的(ii)下一个令牌预测任务,我们展示了一种“反比例尺律”:随着嵌入维度的增加,Transformer无法泛化。针对(i)和(ii)这两种情况,我们提出了微妙的Transformer修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
本文研究了仅编码器变换器语言模型在逻辑规则推理方面的能力,并通过多个数据集的实验结果表明,这些语言模型在确定逻辑有效性上取得了合理的程度,但在迁移能力方面存在困难,可能是学习了特定数据集的特征而不是一般的能力,同时通过分层探测实验证明假设分类任务主要是通过较高层解决的。
Dec, 2023
我们研究transformers模型是否能够学会隐性地进行参数化知识推理,发现它们能够通过全面且超过过拟合的训练学会隐性推理,但在不同推理类型上的推广程度存在差异:在面对分布之外的例子时,transformers在组合推理上无法进行系统化推广但在比较推理上能够成功。通过训练期间对模型内部进行分析实验,我们发现了隐性推理的机制,如泛化电路的形成以及它与泛化和记忆电路相对效率的关系,还发现了系统性与泛化电路配置之间的关系。我们的研究结果指导着数据和训练设置,以更好地实现隐性推理,并提出了改进transformer架构的潜在方法,如鼓励跨层面的知识共享。此外,我们证明对于具有大型搜索空间的具有挑战性的推理任务,基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论在提示样式还是检索增强方面都表现糟糕,而完全掌握隐性推理的transformers模型能够实现近乎完美的准确性,展示了参数化记忆在复杂推理中的威力。
May, 2024
通过研究Transformer中的匹配机制,我们发现小的初始化和LayerNorm后处理可以促进匹配机制的形成,从而增强模型的推理能力;此外,通过添加正交噪声来改进模型的推理能力,并就Transformer的并行推理机制提出一个假设,提高对大型语言模型推理过程的理解并引导设计更有效的推理架构和训练策略。
May, 2024
本研究探讨大型语言模型在复杂逻辑推理中的内部机制,解决了如何理解变换器在进行非平凡规划时的表现。我们通过合成命题逻辑问题,训练并评估变换器,并识别出其内部的“规划”和“推理”电路,发现其关注块之间的合作对于实现预期逻辑至关重要。这项研究揭示了变换器在逻辑推理中的新颖属性,推动了对其规划和推理能力的进一步理解。
Nov, 2024
本研究探讨了大型语言模型在复杂逻辑推理中的内部机制,旨在填补对其推理能力理解的空白。论文构建了一个合成的命题逻辑问题,并发现小型变压器能够完美解决这一问题,揭示了注意力模块之间的合作如何实现所需逻辑。该研究的重要发现为理解小型和大型变压器的推理过程提供了新见解,具有潜在的广泛影响。
Nov, 2024