Tracr: 可解释性实验室中的编译变压器

Jan, 2023

Tracr: 可解释性实验室中的编译变压器

Tracr: Compiled Transformers as a Laboratory for Interpretability

David Lindner, János Kramár, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik

TL;DR在解释性研究中，我们提出使用手动构建的 transformer 模型作为可解释性测试平台，通过 Tracr 将人类可读的程序翻译为 transformer 模型的权重，从而得到实现包括计算令牌频率，排序，Dyck-n 括号验证等程序的多个 ground truth transformers。

Abstract

interpretability research aims to build tools for understanding machine learning (ML) models. However, such tools are inherently hard to evaluate because we do not have ground truth information about how ML model

interpretability machine learning transformer models tracr ground truth

发现论文，激发创造

学习 Transformer 程序

本文介绍的一种采用编程语言设计的可调试 Transformer 程序可以替代机器学习传统编写的 Transformers 来解决一系列算法问题和 NLP 任务。

Jun, 2023

CodeTrans: 通过自监督深度学习和高性能计算破译硅谷代码语言

本研究使用 CodeTrans—— 一种编码器 - 解码器 transformer 模型，在六个软件工程任务中探究了 encoder-decoder transformer 模型的有效性，并调查了各种训练策略的影响，包括单任务学习、迁移学习、多任务学习和多任务学习与微调。结果表明，CodeTrans 在所有任务上均优于现有模型。该研究为软件工程领域的未来工作提供了有力的支持，并公开了预训练模型。

Apr, 2021

跨码器寻找可解释的 LLM 特征电路

通过使用转码器，我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层，并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平，进而通过 MLP 子层进行基于权重的电路分析，最终成功地解析出 GPT2-small 中的大于电路，并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。

Jun, 2024

像 Transformer 一样思考

本文提出了一种计算模型，将 Transformer-encoder 的基本组件 attention 和 feed-forward 计算映射到简单的原语中，并形成一种编程语言 RASP，用于编程解决可能由 Transformer 学习的任务，并演示了如何训练 Transformer 模仿 RASP 解决方案，并且利用该模型分析了所需图层和注意头数。

Jun, 2021

TRACE：LLM 中使用对比嵌入的基于 Transformer 的归因

作者提出了一种新颖而多用途的基于 TRansformer 的自带对比嵌入的源归因框架 TRACE，该框架利用对比学习实现源归因，通过广泛的实证评估证明 TRACE 在不同场景下的性能和效率，显著改善了源归因的准确性，从而增加了大语言模型的可靠性和可信度。

Jul, 2024

TRAC: 一个关于动作和变化推理的文本基准

使用基于 Transformer 的语言模型，针对行动与变化的推理问题提出了 TRAC 基准测试，该测试提供了各种复杂性的问题，旨在更加精准地评估模型的结构泛化能力。实验结果表明，需要额外努力来解决 TRAC 带来的挑战。

Nov, 2022

基于 Transformer 的历史文献手写识别

本文比较了 TrOCR 框架和 SOTA HTR 框架（Transkribus）用于对历史手稿的识别，发现 TrOCR 表示出类似或更好的性能且少量训练即可在英语以外的其他基于拉丁字母的语种上进行迁移学习。

Mar, 2022

基于有界 Dyck 文法的研究案例：变压器使用短视方法不可解释

研究关注于解释性方法，通过检查模型的不同方面（例如权重矩阵或注意力模式）来理解训练模型（例如 Transformer）实现的算法。通过理论结果和对合成数据的仔细控制实验的组合，我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习（有界）Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征（基于形式语言的思想，即泵引理）并证明了最佳解集合具有丰富的定性特点；特定情况下，单层的注意力模式可以 “几乎随机化”，同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物：即使在严格约束模型架构的情况下，经过标准训练也可以得到截然不同的解决方案。因此，基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。

Dec, 2023

基于梯度的自动迭代恢复方法用于参数高效调整

本文利用 TracIn 方法改善了预训练大型语言模型在参数有效调整（PET）任务中的表现，通过 G-BAIR 方法进行梯度自动化迭代恢复，证明了类似 TracIn 的影响方法可以用于自动执行数据清理，并引入了交互式调试和重新标记 PET-based 转移学习方法的潜力。

Feb, 2023

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021