LAIT:具有可调层数和互动的变压器中高效的多段编码
通过引入基于格的编码器,本研究旨在探索有效的单词或子单词表示形式,进而提高基于 Transformer 的神经机器翻译的性能。实验证明,这种新型编码器在单词水平和子单词水平的表示方面优于传统的 Transformer 编码器。
Jun, 2019
我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。
May, 2021
本文提出了一种新的神经网络架构,即增强交互式 Transformer (EIT),用于解决自注意机制中的头部衰减问题。我们将传统的多头自注意机制替换为增强的多头注意力机制 (EMHA),并引入两种交互模型,Inner-Subspace 交互和 Cross-Subspace 交互,以充分利用 EMHA 的映射能力。通过广泛的实验,我们发现 EIT 在多项任务上 (如机器翻译、摘要生成、语法纠正、语言建模和脑疾病自动诊断),仅仅在模型大小方面有很小的增加就能以优异的性能超越传统模型。
Dec, 2022
本文介绍了一种 Local Implicit Transformer (LIT) 方法,它将注意机制和频率编码技术与本地隐式图像函数相结合,设计了一个跨尺度的局部注意块来有效聚合局部特征,进一步提高了代表性能力,并提出了一种级联的 LIT (CLIT) 方法,利用多尺度特征和渐进式训练策略,在任意超分辨率任务中实现了较好的结果,并胜过了以前的方法。
Mar, 2023
本文探讨了一种名为 EEL 的方法,使用 Transformers 对生成的输出的网状结构进行编码,结合新型的分词因素的迭代筛选算法 TFR,实现对 “下游指标” 进行重新排序的多文本生成任务模型的优化。通过实证研究,该算法的速度相对于传统算法提高不少,并且效果也比传统方法更好。
Jun, 2023
本篇论文旨在将 Transformer 预训练模型适应于格输入以执行口语理解任务,并在 ATIS 基准数据集上进行了实验,结果表明,将预训练的 Transformers fine-tuning 用于格输入比用于 1-best 结果有了显著改进,证明了方法的有效性。
Nov, 2020
提出一种基于段落、句子和标记结合的位置编码的 Segment-aware Transformer 模型,并在 Transformer-XL 模型和 BERT 模型上进行预训练和测试,在语言建模和自然语言处理任务中取得了更好的表现。
Apr, 2020
提出了 Language Instructed Temporal-Localization Assistant (LITA) 方法,通过引入时间标记、SlowFast 标记和强调时序本地化数据,改进了多模态大型语言模型的时序本地化能力,并在 Reasoning Temporal Localization (RTL) 任务和 ActivityNet-RTL 数据集中取得了显著的性能提升。
Mar, 2024
本研究提出了一种基于 lattice transformer 和 controllable lattice attention mechanism 的机器翻译方法,其应用于语音翻译任务时,在多条路径和后验分数的支持下,可以更好地泛化并取得更好的翻译结果。同时,在应用于 WMT 2017 中英翻译任务时,也可以取得优于基线的成果。
Jun, 2019
本文提出了一种低延迟的图像处理 transformer,名为 LIPT,通过使用自注意力和卷积的组合来替代内存密集型运算符,以实现实用的加速。在多个图像处理任务上进行的广泛实验表明,LIPT 在延迟和 PSNR 方面均表现出优越性,实现了多个图像超分辨率基准测试上的实时 GPU 推理和最先进的性能。
Apr, 2024