用 Flip-Flop 语言建模揭示注意力漏洞
通过 FlipFlop 实验,该研究探讨了大型语言模型的多轮互动行为,发现模型在回答问题时会反思并改进答案,提供了分析模型行为和评估潜在解决方案的可靠框架。
Nov, 2023
神经网络的内在评估指标,困惑度(PPL),被广泛用于理解自回归神经语言模型(NLMs)的行为。该研究探索了一种新型的双向注意力头切除方法,其呈现了与人脑研究中认知和大脑储备概念相关的特性,暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。
Jun, 2024
使用 Transformer-based 大型语言模型,研究当其生成错误的文本时的内部行为;将事实查询建模为约束满足问题,并使用该框架来研究模型与事实约束的内部交互;通过研究包含超过 40,000 个提示的 11 个数据集,在各种规模的 Llama-2 系列(7B、13B、70B)上研究预测事实错误的任务;提出了一种可以预测约束满足和事实错误、并且可以早期发现错误的 self-attention 模式探查方法 SAT Probe;这些方法和发现表明,利用对大型语言模型中事实性的机械理解可以提高可靠性。
Sep, 2023
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
本文详细探讨了基于 Transformer 的语言模型在事实回忆任务中所使用的机制,包括零样本场景中通过任务特定的注意力头提取主题实体并传递给后续 MLP 以回忆所需答案,以及少样本场景中相同的机制。此外,我们还观察到在模型的最后一层存在普遍的抑制正确预测的反过度自信机制,并通过利用我们的解释来改善事实回忆性能。
Mar, 2024
使用前沿的深度语言模型进行超参数猜测,探讨这些模型设计的局限性,以追求认知行为的个性化描述符;在预测语义流畅性任务表现时,我们使用了几种方法来预测下一个发言,表明 TLM 可以更好地计算个体差异和人类记忆提取策略,为知识表示的认知建模提供新思路。
Aug, 2022
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
通过优化注意力机制来增强大型语言模型的推理能力,特别是对非科学、技术、工程和数学(STEM)问题的推理能力,通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用,为更强大和多功能的语言模型铺平道路。
Mar, 2024
本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题,并展示了该方法在处理事实问题和风格适应应用中的实用性。
Feb, 2024