BriefGPT.xyz
大模型
Ask
alpha
关键词
feed-forward layers
搜索结果 - 4
ACL
研究神经元激活作为统一视角来解释 LLM 的引发思维链的算术推理
通过研究神经元激活,我们探索了大型语言模型中算术推理能力的重要性,以及神经元激活对 CoT 提示的 components 的影响,并提出了一个基于 GPT-4 的方法来自动识别涉及算术推理的神经元。
PDF
16 days ago
变压器激活空间分析中的可解释性:重点调查
该研究论文探讨自然语言处理领域的可解释性方法,重点关注 transformer 中前馈层激活空间(Activation Space),旨在加强该领域的研究。
PDF
a year ago
EMNLP
Transformer 前馈层即键值内存
通过实验我们发现,transformer 模型中的前馈层作为键值内存操作,其键与训练示例中的文本模式相关,并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。
PDF
4 years ago
机器翻译加权变形器网络
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译
→
PDF
7 years ago
Prev
Next