Transformer在思维链条中的表达能力
本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集,以研究transformer模型的推理能力,发现这些模型在解决困难的NLSat问题方面表现出非常强的能力,但仍然存在限制,包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。
Dec, 2021
本研究旨在探讨Transformer大型语言模型在复合任务上的局限性,研究结果表明Transformer模型虽然具有出色的多步推理性能,但其解决复合任务的方式是将多步推理化简为线性子图匹配,而并未完全发展出解决问题的系统性解决问题的方法,同时,随着任务复杂度的增加,Transformer模型的性能也会快速下降。
May, 2023
调查了Transformer大型语言模型在涉及抽象符号的关系推理任务中的能力。对于(i)回归任务,我们证明了Transformer在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的(ii)下一个令牌预测任务,我们展示了一种“反比例尺律”:随着嵌入维度的增加,Transformer无法泛化。针对(i)和(ii)这两种情况,我们提出了微妙的Transformer修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
通过对合成推理任务进行综合机械分析,我们鉴定了一组可解释的机制,这个模型用来解决任务,并使用相关和因果证据验证了我们的发现。我们的结果表明,它实现了一组深度有限的并行循环机制,并将中间结果存储在选择的令牌位置,我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。
Feb, 2024
通过表达能力的角度,本文从理论上解释了串行思维链(CoT)对仅解码器的变压器的增强作用,通过对中间步骤(即CoT)的生成模型进行指导,可以显著提高大型语言模型在算术和符号推理任务上的准确性。
Feb, 2024
我们研究了基于Transformer的语言模型,特别关注了Sparse Transformer和Linear Transformer的推理能力,并发现它们对一类动态规划问题更加有效。
Feb, 2024
使用无意义的填充符号可以替代思维链,解决无法通过直接回答进行的两个难算法任务,但需要具体、密集的监督;同时,中间符号作为填充符号引发了对大型语言模型进行难以审查、隐藏计算的担忧。
Apr, 2024
通过研究Transformer中的匹配机制,我们发现小的初始化和LayerNorm后处理可以促进匹配机制的形成,从而增强模型的推理能力;此外,通过添加正交噪声来改进模型的推理能力,并就Transformer的并行推理机制提出一个假设,提高对大型语言模型推理过程的理解并引导设计更有效的推理架构和训练策略。
May, 2024
研究了编码器-只有变压器 (EOT) 的形式化推理的挑战和可能性,发现 EOT 的满足性问题 (SAT) 是不可判定的,但限定了注意力能力的量化 EOT 可以在 NEXPTIME 内解决 SAT 问题。
May, 2024