May, 2023

语言模型实现简单的 Word2Vec 风格的向量算术

TL;DR本文研究了语言模型在上下文学习中的机制和解决问题的策略,发现虽然它们规模巨大和复杂,但其实有时候它们会利用简单向量算术的机制编码抽象关系,并且利用前馈网络的简单线性更新算法来完成各种任务,在一定程度上具有可解释性。