Sep, 2024

大型语言模型的注意头:综述

TL;DR本研究针对大型语言模型(LLMs)作为黑箱系统的现状,探讨它们内部机制中的注意头,通过四阶段框架分析人类思维过程,旨在揭示推理瓶颈的本质。结果表明,特定的注意头在推理过程中扮演了关键角色,为LMMs的进一步优化提供了新思路。