Feb, 2025

深度语言模型的解释与大脑中的语言表征解释

TL;DR该研究解决了传统方法无法有效对齐深度语言模型内部表征与大脑神经活动之间差距的问题。通过结合可解释人工智能方法,研究显示,前面单词对模型进行下一词预测的贡献可以有效预测参与者听同一叙述时的fMRI记录,揭示了大脑语言处理的层次结构及其与语言模型之间的关联。这为理解语言理解的神经机制提供了有力工具,并引入了用大脑对齐作为评估可解释性方法有效性的标准。