HashFormers：面向独立于词汇表的预训练 Transformer

EMNLPOct, 2022

HashFormers：面向独立于词汇表的预训练 Transformer

HashFormers: Towards Vocabulary-independent Pre-trained Transformers

Huiyin Xue, Nikolaos Aletras

TL;DR本论文提出了一种新的基于 Hash 技术的预训练模型 HashFormers，该模型可以在不使用 embedding matrices 的情况下支持无限词汇量，具有内存效率更高的优点，并在多个文本分类任务中达到了可比较的预测性能。

Abstract

Transformer-based pre-trained language models are vocabulary-dependent, mapping by default each token to its corresponding embedding. This one-to-one mapping results into embedding matrices that occupy a lot of m

pre-trained language models embedding matrices hashformers text classification memory efficiency

发现论文，激发创造

使用 Treeformers 形成树形结构

Treeformer 是一种基于 CKY 算法和 Transformer 的体系结构，可以用于构建短语和句子的分层编码，相较于传统的基于 token 编码的 Transformer，能在机器翻译、文本摘要和自然语言理解等任务上带来显著改进。

Jul, 2022

ProFormer：基于设备的局部敏感哈希投影变形器

ProFormer 是一种基于投影的变压器架构，使用 LSH 投影层动态生成字表示，提高了效率和空间利用率，使用本地投影注意层进一步减少计算量，相较于 BERT 模型在设备上的表现更快更小。

Apr, 2020

Bioformer：面向生物医学文本挖掘的高效 Transformer 语言模型

本研究提出了 Bioformer，一种用于生物医学文本挖掘的紧凑型 BERT 模型，它在 PubMed 文摘和 PubMed Central 全文文章上进行了预训练，使用生物医学词汇表。Bioformer 相对于 BERTBase 减小了 60％的模型大小，且在四种不同的生物医学 NLP 任务中表现出优异的性能，比如问答，文档分类和命名实体识别等。此外，Bioformer 速度比 PubMedBERT 和 BioBERTBase-v1.1 快 2-3 倍。

Feb, 2023

用哈希嵌入提高词表示的效率

介绍了一种名为哈希嵌入的词向量表示方法，用于大规模词汇表和各种任务，通过哈希函数实现形如标准和随机哈希嵌入的加权插值，可有效降低嵌入层参数量且不需要预处理词典。实验证明，哈希嵌入不会使模型性能下降且能显著减少计算量。

Sep, 2017

FastFormers: 高效 Transformer 模型的自然语言理解

本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率，可以通过运用知识蒸馏、结构剪枝和数值优化等方法，将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍，节省成本的同时降低能耗。

Oct, 2020

用于大型稀疏模型的哈希层

本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练，通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中，进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与 Switch Transformers 和 BASE Layers 等学习路由混合专家方法竞争，同时研究了不同的哈希技术、哈希大小和输入特征的表现，并表明了本研究的方法可以在大规模语言建模和对话任务、下游微调任务中表现出色。

Jun, 2021

HETFORMER：用于长文本抽取式摘要的稀疏注意力异构 Transformer

本文提出了一种基于 Transformer 的预训练模型，通过多粒度稀疏注意力机制，从长文本中捕捉语义图结构并进行提取式摘要，实验证明 HETFORMER 在 Rouge F1 上具有最先进的性能，同时使用更少的内存和参数。

Oct, 2021

GraphFormers: 融合 GNN 和 Transformer 的文本图卷积神经网络表示学习

本文提出了一种基于文本图的表示学习方法 GraphFormers，该方法将语言模型的 Transformer 块与图神经网络嵌套在一起，将文本编码和图聚合融合到迭代的工作流程中，从全局视角准确地理解每个节点的语义。通过在三个大规模基准数据集上的广泛评估，GraphFormers 比 SOTA 基准模型具有相当的运行效率。

May, 2021

MatFormer: 嵌套变压器用于弹性推理

MatFormer 介绍了一种嵌套的 Transformer 架构，允许精细控制模型大小和推理延迟，同时能提取准确的子模型以降低推理时间。

Oct, 2023

Transformers 高效分层化化学图学习器

SubFormer 是一种图变换器，通过消息传递机制对子图进行操作，减少了标记数量，增强了学习长距离交互的能力。在预测分子属性和化学结构方面，SubFormer 与最先进的图变换器相比，在计算成本的一小部分情况下保持着竞争力，并且在消费级显卡上进行训练的时间仅为几分钟。我们通过对化学结构的注意权重进行解读，展示了 SubFormer 表现出有限的过度平滑和避免了传统图神经网络常见的过度压缩问题。

Oct, 2023