监视器模型及其误解:澄清
过去四十年中,对实证式翻译过程研究(TPR)模型的发展与评估进行了努力,但一个全面的框架仍然难以捉摸。本文追溯了 CRITT TPR-DB 传统中实证 TPR 的演变,并提出了自由能原理(FEP)和主动推理(AIF)作为模拟深度嵌入式翻译过程的框架。它介绍了量化关联理论(关联性,s 模式,i 模式)基本概念的新方法,并建立了它们与监控模型的关系,将关联性最大化视为最小化自由能的特例。FEP/AIF 提供了一个数学严谨的基础,能够对不同时间轴上展开的嵌入式翻译过程进行建模。这一框架为未来的预测性 TPR 研究开辟了令人兴奋的前景,有望丰富我们对人类翻译过程的理解,并为翻译研究和认知架构设计作出宝贵的贡献。
Aug, 2023
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
我们提出将人类翻译生产建模为三个嵌套的翻译过程的层次结构,通过模拟传感运动、认知和现象学层面上的按键生产的时间动态,利用来自 CRITT TPR-DB、Task Segment Framework 和 HOF 分类法的数据,我们展示了这三个层面上不同时间线上的打字流程的分解。
May, 2024
本文探讨了阅读文本时眼动的影响,并研究了多语言模型对跨语言转移的使用。作者使用句子级别的眼动模式将结构复杂性作为认知指标,并表明多语言模型 XLM-RoBERTa 能够成功地预测 13 种形态上不同的语言的模式。作者还对模型对结构复杂性的敏感性进行了量化,并区分了一系列复杂性特征。结果表明,模型不仅对句子长度有意义的偏见,还整合了跨语言之间的差异。同时,作者还进行了随机单词顺序的控制实验,并发现该模型似乎还捕捉到了更复杂的结构信息。
Feb, 2023
大型语言模型(LLMs)的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论,本文通过研究多模态语言模型(mLLMs)中的视觉关注权重,发现与人类一样,mLLMs 中基于多模态输入的预测性语言处理过程也会受到视觉特征的注意引导。
Aug, 2023
本文讨论多模态处理的最新进展,探讨了多模态信息流和不同的多模态表示方法,讨论了多模态基础对于语言处理任务的益处和挑战。特别着重研究动词的多模态基础,对语言的组成能力起着重要作用。
Jun, 2018
深度语言模型(DLMs)为理解人脑中自然语言处理机制提供了一种新的计算范式。通过使用分层连续数值向量来表示单词和上下文,DLMs 与传统的心理语言学模型不同,从而产生了大量新兴应用,如人类般的文本生成。本文通过展示 DLMs 的分层层次结构可以模拟大脑中语言理解的时间动态性,从而证明了 DLMs 的层深与层是否最能预测人脑之间存在强相关。我们利用高时序分辨率的电皮层图谱(ECoG)数据记录参与者在听取一个 30 分钟叙述时的神经活动,同时将相同的叙述输入高性能 DLM(GPT2-XL)中。然后,我们提取 DLM 的不同层中的上下文嵌入,并使用线性编码模型预测神经活动。首先,我们关注下额下回脑回(IFG),然后扩展我们的模型,跟踪语言处理层次结构中从听觉到句法和语义区域的渐增时态感受窗口。我们的结果揭示了人类语言处理和 DLMs 之间的联系,DLM 的信息逐层累积上下文与高级语言区域的神经活动时机形成镜像关系。
Oct, 2023
通过在线实验,比较人类和神经语言模型在语法处理中的情况;发现当神经语言模型遇到语法问题时,会在显著性方面低估人类反应时间的不同,这对于现代语言模型是否接近人类对语法违规的敏感性提出了质疑。
Jun, 2021