重新考虑过去：语言模型中隐藏状态的优化

EMNLPDec, 2021

重新考虑过去：语言模型中隐藏状态的优化

Reconsidering the Past: Optimizing Hidden States in Language Models

Davis Yoshida, Kevin Gimpel

TL;DR本研究提出了基于梯度的隐藏状态优化（HSO）方法，提高了 transformer 语言模型在推断时的性能，尤其在评估模型训练分布之外的数据集时表现出色，且在 few-shot 评估方面也有改进。

Abstract

We present hidden-state optimization (HSO), a gradient-based method for improving the performance of transformer language models at infere

hidden-state optimization transformer language models gradient-based method dynamic evaluation perplexity

发现论文，激发创造

高阶动态图表示学习与高效 Transformer 模型

通过在 Transformer 的注意力矩阵中编码高阶图结构，HOT 模型在图表示学习中的动态问题中提高了链接预测的准确性，同时通过设置层次结构在注意力矩阵上显著减少内存占用。与其他动态图表示学习方案相比，HOT 在 MOOC 数据集上实现了相对较高的准确性，分别比 DyGFormer、TGN 和 GraphMixer 分别高出 9%、7% 和 15%。

Nov, 2023

未来视角：从单个隐藏状态预测后续标记

利用隐藏状态向量进行预测模型，使用线性逼近和因果干预方法对 GPT-J-6B 网络中的隐藏状态进行评估，发现某些层的单一隐藏状态可以以超过 48% 的准确率近似模型输出，并提出了 “未来镜头” 可视化方法来呈现 Transformer 状态。

Nov, 2023

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

H$_2$O: 大语言模型高效生成推理的重要串行预测器

介绍了一种利用 Heavy Hitters 实现 KV cache 的新方法，提高了 Large Language Models 在长序列生成任务中的运行性能。

Jun, 2023

饥饿的河马：基于状态空间模型的语言建模

通过使用合成语言建模任务，我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距，并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。

Dec, 2022

预训练语言模型的隐藏状态可变性可指导迁移学习的计算降低

该研究提出通过基于层内和层间变异性度量的方式选择适当的层数和分类器位置，以降低迁移学习方法的计算成本，而不影响其性能，并在 GLUE 测试集上进行了广泛实验，证明了该方法的有效性。

Oct, 2022

通过隐藏传输进行并行解码以实现无损大型语言模型加速

大型语言模型的并行解码技术，包括隐藏状态传递、树状注意机制和加速技术等，提高了模型推理速度和生成准确性。

Apr, 2024

Transformer 语言模型的动态评估

这篇研究使用 Transformers 和动态评估两种方法来提高语言建模，在多个数据集上的实验表明，使用动态评估提高了模型预测准确率。

Apr, 2019

预训练语言模型隐藏状态操纵在分类任务中的参数高效调整

本篇研究提出一种简单的优化方法，只引入三个可训练向量，并将所有层的隐藏状态使用这些向量进行整合，之后将整合后的隐藏状态输入到一个任务特定的线性分类器中进行分类，通过验证原始的隐藏状态确实包含分类任务的有用信息，证明了该优化方案与 P-tuning v2 相比具有时间和参数数量的优势。

Apr, 2022

利用 Transformer 实现通用超参数优化器学习

本文介绍了 OptFormer，它是第一个基于文本的 Transformer HPO 框架，可以在从 Google 的 Vizier 数据库等多种调整数据中训练，以提供学习策略和功能预测的通用端到端接口。OptFormer 能同时模拟至少 7 种不同的 HPO 算法，可以通过其函数不确定性估计进一步改进，并学习到对超参数响应函数的强健先验分布，可以提供更准确和更好的校准预测，这项工作为训练基于 Transformer 模型作为通用 HPO 优化器的未来扩展铺平了道路。

May, 2022