Jun, 2024

基于纯注意力硬极大值变压器的聚类及其在情感分析中的作用

TL;DR通过将transformers视为将导致点在欧几里得空间中演化的离散时间动态系统,并利用基于超平面分离的自注意力机制的几何解释,我们严格描述了层数趋近于无穷大时具有硬最大自注意和规范化子层的transformers行为。我们的理论理解使我们能够使用一个完全可解释的transformer模型来解决语言处理中的情感分析问题,这个模型通过将无意义的单词聚类到携带最有意义的主导单词周围来有效地捕捉`语境'。最后,我们概述了将transformers的数学分析与实际实现之间的差距的剩余挑战。