通过在 Transformer 的注意力矩阵中编码高阶图结构,HOT 模型在图表示学习中的动态问题中提高了链接预测的准确性,同时通过设置层次结构在注意力矩阵上显著减少内存占用。与其他动态图表示学习方案相比,HOT 在 MOOC 数据集上实现了相对较高的准确性,分别比 DyGFormer、TGN 和 GraphMixer 分别高出 9%、7% 和 15%。
Nov, 2023
利用隐藏状态向量进行预测模型,使用线性逼近和因果干预方法对 GPT-J-6B 网络中的隐藏状态进行评估,发现某些层的单一隐藏状态可以以超过 48% 的准确率近似模型输出,并提出了 “未来镜头” 可视化方法来呈现 Transformer 状态。
本文提出了一种带有特殊门控机制的多头状态空间(MH-SSM)架构,它可以作为多头注意力在转换器编码器中的替代品,在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果,在 LibriSpeech 语音识别数据集上提高了性能。同时,我们将 MH-SSMs 层与转换器块相结合,成为 Stateformer,且无需使用外部语言模型,在 LibriSpeech 任务中实现了最先进的性能,其开发和测试集上的字错率分别为 1.76%/4.37%和 1.91%/4.36%。
May, 2023
介绍了一种利用 Heavy Hitters 实现 KV cache 的新方法,提高了 Large Language Models 在长序列生成任务中的运行性能。
Jun, 2023
通过使用合成语言建模任务,我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距,并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。
Dec, 2022
该研究提出通过基于层内和层间变异性度量的方式选择适当的层数和分类器位置,以降低迁移学习方法的计算成本,而不影响其性能,并在 GLUE 测试集上进行了广泛实验,证明了该方法的有效性。
Oct, 2022
大型语言模型的并行解码技术,包括隐藏状态传递、树状注意机制和加速技术等,提高了模型推理速度和生成准确性。
Apr, 2024
这篇研究使用 Transformers 和动态评估两种方法来提高语言建模,在多个数据集上的实验表明,使用动态评估提高了模型预测准确率。
Apr, 2019
本篇研究提出一种简单的优化方法,只引入三个可训练向量,并将所有层的隐藏状态使用这些向量进行整合,之后将整合后的隐藏状态输入到一个任务特定的线性分类器中进行分类,通过验证原始的隐藏状态确实包含分类任务的有用信息,证明了该优化方案与 P-tuning v2 相比具有时间和参数数量的优势。
Apr, 2022
本文介绍了 OptFormer,它是第一个基于文本的 Transformer HPO 框架,可以在从 Google 的 Vizier 数据库等多种调整数据中训练,以提供学习策略和功能预测的通用端到端接口。OptFormer 能同时模拟至少 7 种不同的 HPO 算法,可以通过其函数不确定性估计进一步改进,并学习到对超参数响应函数的强健先验分布,可以提供更准确和更好的校准预测,这项工作为训练基于 Transformer 模型作为通用 HPO 优化器的未来扩展铺平了道路。
May, 2022