ACLJun, 2024

太大而无法失败:较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

TL;DR神经网络的内在评估指标,困惑度(PPL),被广泛用于理解自回归神经语言模型(NLMs)的行为。该研究探索了一种新型的双向注意力头切除方法,其呈现了与人脑研究中认知和大脑储备概念相关的特性,暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。