上下文计数：对变压器在定量任务上的机理研究

May, 2024

上下文计数：对变压器在定量任务上的机理研究

Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task

Siavash Golkar, Alberto Bietti, Mariel Pettee, Michael Eickenberg, Miles Cranmer...

TL;DR该研究论文介绍了一种上下文计数任务，通过理论和实证分析，揭示了 Transformer 在性能和可解释性方面的影响因素，特别是发现因果关注机制更适合该任务，并且没有位置编码可以获得最佳准确性。

Abstract

transformers have revolutionized machine learning across diverse domains, yet understanding their behavior remains crucial, particularly in high-stakes applications. This paper introduces the contextual counting task

transformers contextual counting task position encodings causal attention out of distribution performance

发现论文，激发创造

使用 Transformer 提升人群计数

本文研究了全局上下文对于人群计数的作用，使用 transformer 和 token-attention module 提取了包含全局信息的特征，并在多个数据集上实验，最终达到了最佳效果。

May, 2021

情境化的词义感知：从注意力到组合性

使用语义组合性建模的透明、可解释和语言学动机策略，模拟词的上下文意义编码，并且与复杂神经结构下的黑盒模型相比，显示其与语言学动机模型在给定语义任务中的竞争力。

Dec, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

细节藏恶魔：评估基于 Transformer 的方法在细粒度任务中的局限性

该文探讨了基于 transformer 的神经语言模型生成的上下文嵌入在文本相似度问题上的表现，针对不同粒度上的文本匹配任务，发现相较于简单的基准算法 TF-IDF，该模型在细颗粒度上的匹配任务表现欠佳，提出了一种简单而有效的方法，即将 TF-IDF 与上下文嵌入模型相结合，相对性能提升达到 36%。

Nov, 2020

使用 Transformer 进行计数和算法推广

机器学习中的算法泛化是指以一种能够概括超出数据分布的方式学习生成数据的底层算法。在本研究中，我们分析了在涉及计数时，不论是隐式还是显式所需的算法泛化。我们展示了标准 Transformer 模型基于的架构决策阻碍了此类任务的超出分布性能。特别是，我们讨论了使用层归一化和通过 softmax 归一化注意力权重的后果。通过消融引起问题的操作，我们证明通过使用非常轻量级的架构，修改后的 Transformer 能够表现出良好的计数算法泛化性能。

Oct, 2023

CounTR: 基于 Transformer 的通用视觉计数

本研究提出了 Counting Transformer (CounTR) 用于实现对任意语义类别的目标进行计数，并采用两阶段的训练策略进行无监督预训练和有监督微调，通过综合评估获得了当前最先进的零样本和少样本计数结果，并使用大规模计数基准进行了彻底的消融研究。

Aug, 2022

一个关于训练于符号多步推理任务的 Transformer 的机制分析

通过对合成推理任务进行综合机械分析，我们鉴定了一组可解释的机制，这个模型用来解决任务，并使用相关和因果证据验证了我们的发现。我们的结果表明，它实现了一组深度有限的并行循环机制，并将中间结果存储在选择的令牌位置，我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。

Feb, 2024

TransCrowd：基于 Transformer 的弱监督人群计数

该论文提出了一种基于 Transformer 的弱监督人群计数方法 TransCrowd，通过自注意力机制实现了语义人群信息的高效提取，在五个基准数据集上获得了比弱监督 CNN 方法更好的性能和与一些流行的全监督计数方法相当的计数性能。

Apr, 2021

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

概率变换器：一种用于上下文词表示的概率依赖模型

我们提出了一种新的上下文词表示模型，由纯句法和概率角度设计。我们的模型类似于 transformers，能够竞争性地在小到中等规模的数据集上执行任务，希望能够弥补传统句法和概率方法与先进神经方法之间的差距，并激发未来更多基于语言学原则的神经方法的启发。

Nov, 2023