大型语言模型中的Transformer对齐

Jul, 2024

Transformer Alignment in Large Language Models

Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan

TL;DR通过分析38个开放可用的大型语言模型，我们发现Residual Jacobians的左右奇异向量的对齐、线性化和层次指数增长等现象与模型性能正相关，这些重要发现揭示了以往被忽视的显著规律，加强了对LLM体系结构的动态解释，并为进一步理解和优化LLM体系结构铺平了道路。

Abstract

large language models (LLMs) have made significant strides in natural language processing, and a precise understanding of the internal mechanisms driving their success is essential. We regard LLMs as transforming embeddings via a discrete, coupled, nonlinear, dynamical system in high d

发现论文，激发创造

基于Transformer的语言模型

本篇论文针对Transformer架构不足以高效融合语言建模所需的单词级序列上下文，提出了在保持计算效率的同时通过添加额外的LSTM层能够更好地捕捉顺序上下文的有效Transformer架构，其中Coordinate Architecture Search（CAS）通过迭代模型的精炼来找到一个有效的架构，实验结果表明CAS在所有问题上的perplexities达到了20.42 ~ 34.11，即比最先进的LSTM提高了12.0 perplexity单位。

Apr, 2019

多尺度Transformer语言模型

本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

May, 2020

Transformer语言模型的结构指导

本论文研究了在不需要大量预训练的情况下，以结构为导向的指导是否能够使Transformer语言模型学习更接近人类的系统语言泛化。通过在 BLLIP数据集上对两种新模型进行实验，研究者发现引入结构性解析的辅助训练能够提高Transformer语言模型在句法推理上的泛化能力。

Jul, 2021

Transformer 语法：在规模上增强具有语法归纳偏见的转换语言模型

Transformer Grammars是一种新颖的语言模型，通过特殊的注意力掩码和确定性转换实现递归句法组合，提高了句子级别和句法敏感的语言建模性能，在长文本建模中，递归的句法组合对表示整个句子向量造成了瓶颈并影响了逼近度，表明一个独立于组合句法表示的不同类型的记忆机制在当前成功的模型中发挥了重要作用。

Mar, 2022

无需位置嵌入，自注意力变化中潜在位置信息的转换语言模型

本研究论述了传统Transformer语言模型中位置嵌入的必要性，提出随机初始化且去除位置嵌入的模型仍具备显著的位置信息，可以舍弃位置嵌入以提高预训练模型的效率。

May, 2023

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

深度和宽度对Transformer语言模型泛化的影响

通过对transformers进行实验，我们发现深度模型相比较较浅模型能更好地进行组成性泛化，并得出更深的模型在语言建模性能上表现更好的结论。

Oct, 2023

在长上下文大语言模型中推进Transformer架构的综合调查

该研究论文主要针对基于Transformer的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

对齐器：当对齐大型语言模型时，一个全局令牌等于数百万个参数

Aligner是一种参数高效的微调方法，通过构建一组全局共享的可调节的令牌来修改每一层的注意力，即使仅使用一个包含5000个参数的令牌，Aligner仍然可以与需要数百万个参数的LoRA等最先进的LLM适应方法表现相当好。这个方法除了在参数效率上的巨大改进外，还提供了对LLM内部机制的宝贵见解，这个发现有望促进对LLM机制理解和价值对齐的新研究。

Dec, 2023

用表示编辑来对齐大型语言模型：一个控制的观点

通过表示编辑的方法，提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号，以实现特定目标对齐的方法，实验证明该方法在测试时间上优于现有的测试时间对齐技术，并且相对于微调方法需要较少的资源。

Jun, 2024