BriefGPT.xyz
大模型
Ask
alpha
关键词
induction head
搜索结果 - 2
一个基于机制的数据依赖和突发学习的在情境分类任务的基础
Transformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文
→
PDF
7 months ago
变形金刚的诞生:记忆视角
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论
→
PDF
a year ago
Prev
Next