Oct, 2024

电路组合:探索基于变压器的语言模型中的模块化结构

TL;DR本研究解决了神经网络,特别是语言模型在复用功能上的能力不足的问题。通过分析变压器模型中高度组合的子任务电路,研究发现功能相似的电路具有显著的节点重叠和跨任务的信实性,这表明这些电路可以通过子网络集合运算进行重用和组合,从而表现出更复杂的功能能力。