BriefGPT.xyz
大模型
Ask
alpha
关键词
internal mechanisms
搜索结果 - 3
基于 Transformer 的语言模型内部工作原理初探
这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍,重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述,揭示了该领域中流行方法和活跃研究方向之间的联系。
PDF
2 months ago
一个关于训练于符号多步推理任务的 Transformer 的机制分析
通过对合成推理任务进行综合机械分析,我们鉴定了一组可解释的机制,这个模型用来解决任务,并使用相关和因果证据验证了我们的发现。我们的结果表明,它实现了一组深度有限的并行循环机制,并将中间结果存储在选择的令牌位置,我们期望我们在合成环境中鉴定的
→
PDF
4 months ago
从人类行为角度探索语言模型
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和
→
PDF
9 months ago
Prev
Next