通过建立分层结构的 Transformer 模型 Hourglass,让 Transformer 可以更加高效地处理长序列,在 ImageNet32 生成任务方面表现出新的最先进,同时提高了在广泛研究的 enwik8 基准上的语言建模效率。
Oct, 2021
使用转换器模型从维基百科数据集及其相关类别中提取语义信息,通过不同方法对类别的语义特征进行评估和增强,以提高数据组织的语义准确性。
Apr, 2024
研究了使用超几何空间模型学习大型分类体系中的嵌入向量,其中 Lorentz 模型的效率高于 Poincaré-ball 模型,并发现该方法可以应用于发现公司组织结构和语言家族之间的历史关系。
Jun, 2018
提出一种称为 Hi-Transformer 的层次交互 Transformer 模型,通过学习每个句子的表示来获取全局文档信息,可以高效、有效地处理长文档建模问题。
Jun, 2021
通过提出的 HiStruct+ 模型,将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中,提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标,实验发现:数据集对模型效果的影响是关键因素,数据集中的明显层级结构可以取得更大的性能提升,而在模型的表现中,层级位置信息的贡献最大。
Mar, 2022
本文探讨了代码序列中层次结构对令牌的影响,并将其抽象为代码令牌的一个属性。我们提出了一种简单但有效的模型 HiT,将完整的层次结构嵌入源代码序列。实验证明,层次嵌入可用于学习代码结构,并在多个数据集上的分类和生成任务中显示出 HiT 性能的稳定训练效率。
Mar, 2023
文章介绍了一种名为 iHT 的知识图谱 (KG) 表征模型,该模型基于 Transformer 并经过大规模预训练,由实体编码器和邻居感知关系得分函数组成,可用于 KG 补全,经过实验证明其具有很好的泛化能力和良好的表现。
通过模仿人脑记忆层次结构,我们提出了分层记忆 Transformer(HMT)框架,以提高模型的长上下文处理能力,并通过在限定上下文和长上下文模型上的评估验证了其有效性。
May, 2024
本文研究使用分层传递学习方法进行长文本分类,通过将数据分成块,然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型,然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估,同时与多个深度学习算法进行比较,其中 Longformer 方法在大多数数据集上始终表现良好。
Jan, 2022
该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调,成功将其应用于客户电话满意度预测和话题分类任务中,并在两个任务中取得了显著的改进。
Oct, 2019