多尺度变形器模型的序列生成学习
该研究通过在自我注意模块中引入先前知识 - 多尺度结构,提出了一种 Multi-Scale Transformer,其使用多尺度多头自我注意来捕捉来自不同尺度的特征,通过对 21 个数据集进行的实验结果表明,相对于标准 Transformer,在小型和中等型数据集上,该多尺度变压器始终具有显着性能优势。
Dec, 2019
通过使用注意力机制,Transformer 模型不仅在性能上有所提升,同时还可通过可视化工具展示模型如何赋权于不同的输入元素,从而实现模型的解释和解读,本文提出了一种开源的基于多尺度可视化注意力机制的工具,并在 BERT 和 OpenAI GPT-2 上进行了演示,包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。
Jun, 2019
本研究旨在探索并提出一种并行多尺度表示学习方法,利用自注意力和点对点转换,对序列数据进行多尺度编码和建模,实现长距离和短距离结构中的机器翻译任务,该方法在三个主要机器翻译任务中表现优异,并具有加速推理的潜力。
Nov, 2019
本文提出了一种多尺度递归神经网络,称为分层多尺度递归神经网络,通过使用新的更新机制,在不使用显式边界信息的情况下捕获序列中的潜在分层结构,从而解决递归神经网络中的层次和时间表示问题,并在字符级别语言建模和手写序列建模上进行评估。
Sep, 2016
该研究提出了一种名为 MUSE 的基于 Transformer 和多尺度时间传感器单元的知识追踪模型,能够有效地捕捉用户在不同时间范围内的知识状态的动态变化,并提供一种有效而强大的方法来组合本地和全局特征进行预测。该方法在 Riiid AIEd Challenge 2020 中获得了第五名。
Jan, 2021
使用集合转换器在分层框架中对点云进行形状分类和分割,实现了状态 - of-the-art 的性能,并可用于处理大规模稀疏数据。
Jul, 2022
本文介绍了一种层次转换器方案,用于高效地学习多尺度 PDE 的解算子,通过自注意力和 H^1 损失函数,实现了对多尺度解空间的编码和解码,并在数值实验中展示了与最先进方法相比的优越性。
Oct, 2022
本文提出了一种 Slow-Fast 双流学习模型 ——TranSFomer,将细粒度字符级特征与多尺度 Transformer 结合,显著提高了机器翻译 BLEU 指标。
May, 2023
本文介绍了一种结合多头自注意力和短语建模的新型神经网络 Mg-Sa,利用 n-gram 或者句法格式训练多个注意头以关注短语,并通过短语间的交互增强结构建模弱点,实验结果表明该方法可以提高 NMT 的性能。
Sep, 2019