语言模型作为层次编码器

Jan, 2024

Language Models as Hierarchy Encoders

Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks

TL;DR利用超几何空间重新训练语言模型中的分层转换器编码器（Hierarchy Transformer encoders，HiTs），为回归语言模型中隐含的分层结构提供了一种新的方法，通过聚类与层级组织相关实体来提高在推论、预测和跨层次知识传递等任务中的性能和可转移性。

Abstract

Interpreting hierarchical structures latent in language is a key limitation of current language models (LMs). While previous research has implicitly leveraged these hierarchies to enhance LMs, approaches for thei

hierarchical structures language models hierarchy transformer encoders hyperbolic space re-trained hierarchy encoders

发现论文，激发创造

分层 Transformer 是更高效的语言模型

通过建立分层结构的 Transformer 模型 Hourglass，让 Transformer 可以更加高效地处理长序列，在 ImageNet32 生成任务方面表现出新的最先进，同时提高了在广泛研究的 enwik8 基准上的语言建模效率。

Oct, 2021

通过 LLMs 潜空间增强上下文分类

使用转换器模型从维基百科数据集及其相关类别中提取语义信息，通过不同方法对类别的语义特征进行评估和增强，以提高数据组织的语义准确性。

Apr, 2024

Lorentz 模型下的连续层级超几何学学习

研究了使用超几何空间模型学习大型分类体系中的嵌入向量，其中 Lorentz 模型的效率高于 Poincaré-ball 模型，并发现该方法可以应用于发现公司组织结构和语言家族之间的历史关系。

Jun, 2018

Hi-Transformer: 高效、有效的长文档建模的分层交互式 Transformer

提出一种称为 Hi-Transformer 的层次交互 Transformer 模型，通过学习每个句子的表示来获取全局文档信息，可以高效、有效地处理长文档建模问题。

Jun, 2021

HiStruct+: 基于层次结构信息的提取式文本摘要优化

通过提出的 HiStruct+ 模型，将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中，提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标，实验发现：数据集对模型效果的影响是关键因素，数据集中的明显层级结构可以取得更大的性能提升，而在模型的表现中，层级位置信息的贡献最大。

Mar, 2022

将全局和局部层次信息植入基于序列的代码表示模型

本文探讨了代码序列中层次结构对令牌的影响，并将其抽象为代码令牌的一个属性。我们提出了一种简单但有效的模型 HiT，将完整的层次结构嵌入源代码序列。实验证明，层次嵌入可用于学习代码结构，并在多个数据集上的分类和生成任务中显示出 HiT 性能的稳定训练效率。

Mar, 2023

为知识图谱补全预训练变形器

文章介绍了一种名为 iHT 的知识图谱 (KG) 表征模型，该模型基于 Transformer 并经过大规模预训练，由实体编码器和邻居感知关系得分函数组成，可用于 KG 补全，经过实验证明其具有很好的泛化能力和良好的表现。

Mar, 2023

HMT：用于长文本语言处理的分层记忆变形器

通过模仿人脑记忆层次结构，我们提出了分层记忆 Transformer（HMT）框架，以提高模型的长上下文处理能力，并通过在限定上下文和长上下文模型上的评估验证了其有效性。

May, 2024

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

层级 Transformer 用于长文档分类

该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调，成功将其应用于客户电话满意度预测和话题分类任务中，并在两个任务中取得了显著的改进。

Oct, 2019