BriefGPT.xyz
Ask
alpha
关键词
key-value memories
搜索结果 - 3
揭示 Transformer 模型中的多语言性:探索前向网络中的语言特征
通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。
PDF
8 months ago
EMNLP
Transformer 前馈层即键值内存
通过实验我们发现,transformer 模型中的前馈层作为键值内存操作,其键与训练示例中的文本模式相关,并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。
PDF
4 years ago
AAAI
深度 Q 网络的更好可解释性
本文提出了一种可解释的神经网络架构,用于 Q-learning,在全局层面上使用键值记忆、注意力和可重构嵌入,提供模型行为的全局解释。使用有向探索策略,该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励,但结果表明该神经
→
PDF
6 years ago
Prev
Next