限制记忆能力的语言模型捕捉人类句子处理中的干扰
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力,本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN,并挑战了人类句子处理涉及循环和即时处理的普遍理念,并提供了线索检索的证据
May, 2020
该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词,并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序,而 LSTM 模型则更加侧重于先前单词的语义要点,以及其与列表中其他单词的关系。
Oct, 2022
本论文提出了一种有键 - 值注意机制的神经语言模型,能够输出不同的 key 和 value 表示,同时对下一个单词的分布进行编码,比现有的基于记忆的、神经语言模型表现更好,但发现该方法主要利用最近五个输出表示的记忆。
Feb, 2017
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
通过比较两个任务特定的阅读数据集,研究表明,大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质,而任务特定的微调不增加与人类阅读的相关性,并且通过输入减少实验给出了互补信息,表明低熵的注意向量更为可靠。
Apr, 2022
通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力,研究发现 ChatGPT 和人类的表现有惊人的一致性,尽管它们的内部机制可能存在显著差异,这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。
Mar, 2024
本文借鉴了人类记忆的机制,提出一种新的记忆模型,在处理输入时进行了排练和预测以记住重要信息,成功应用于问题回答数据集并得到了重大改进。
May, 2023
通过研究注意力头与人类情节记忆之间的关系,我们发现 Transformers 模型和自注意机制的缺失,并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索(CMR)模型有相似之处。我们的研究揭示了 LLMs 的计算机制与人类记忆之间的并行关系,为这两个研究领域提供了有价值的洞见。
May, 2024