Mar, 2024

大型语言模型中的上下文翻译发生在哪里

TL;DR通过层次上的上下文遮蔽实验,我们证明了大型语言模型中存在一个任务识别点,该点将任务编码到输入表示中,不再需要注意上下文,同时还观察到在层次遮蔽时的低性能与任务识别层之间的对应关系,利用这种冗余性可在提示5个示例时节省45%的计算量,任务识别在第14/32层达到,并且层次微调实验表明对于MT微调来说,最有效的层次是关键的任务识别层。