causal attention | BriefGPT

关键词causal attention

搜索结果 - 6

消除语言模型的位置偏见：一种机制化方法
通过消除输入段落顺序的不同，我们的方法改变了因果注意力，使其变为段落之间的双向关注，并利用模型关注值来决定段落的相对顺序，从而实现了段落级的位置不变推理（PINE），消除位置偏差使得模型在广泛存在位置偏差的下游任务中获得更好的性能和可靠性。
PDF3 days ago
上下文计数：对变压器在定量任务上的机理研究
该研究论文介绍了一种上下文计数任务，通过理论和实证分析，揭示了 Transformer 在性能和可解释性方面的影响因素，特别是发现因果关注机制更适合该任务，并且没有位置编码可以获得最佳准确性。
PDFa month ago
训练 Transformer 时打破对称性
通过研究我们发现，Transformer 架构在没有位置编码和因果注意机制之一的情况下，对于输入令牌 $n+1$ 的预测对于输入令牌 $1, 2, ..., n-1$ 的排列是不变的，而通常情况下，两种机制都被采用并破坏了对输入令牌的对称性
PDF5 months ago
通过演示重放改善上下文学习的输入 - 标签映射
提出了一种名为 RdSca 的新型 ICL 方法，通过重复展示和滑动因果注意力相结合，显著改善了 ICL 演示中的输入 - 标签映射，并针对自定义因果注意力进行了深入分析，从而解决了之前研究中未被探索的问题。
PDF8 months ago
EMNLP仍可学习位置信息的 Transformer 语言模型无需位置编码
本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的
PDF2 years ago
视觉语言任务的因果关注
本文提出了一种新颖的注意力机制 Causal Attention (CATT)，用于消除现有基于注意力的视觉语言模型中一直存在的混淆效应，CATT 可替换任何注意力模块，可大幅提高各种流行的注意力模型的性能，尤其在大规模预训练中具有潜力。
PDF3 years ago