BriefGPT.xyz
Ask
alpha
关键词
residual stream
搜索结果 - 3
对 Transformer 语言模型的层间通信的理解
通过分析 Transformer 语言模型中的机制,研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式,通过分解注意力头权重矩阵进而预测层间相互作用的方法,以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习,为进一步分析
→
PDF
23 days ago
探索 Transformer 的残差流
在本文中,我们通过研究 Transformer 模型的残差流来增强其可解释性。我们发现残差连接的机制是在 softmax 之前的值上进行直接相加,从而使得具有更大 softmax 之前值的标记的概率增加。此外,我们证明了使用对数概率增加作为
→
PDF
7 months ago
基于交叉注意力增强双流网络的人工智能图像检测
本研究提出了一种使用文本到图像生成过程中的残差网络和内容网络结合的检测方法以及跨多头注意机制来检测 AI 产生的虚假图片,并取得了优于传统 CG 检测技术的结果。
PDF
a year ago
Prev
Next