GAMMT:使用多个 Transformer 进行生成性歧义建模
该研究利用神经语言模型提取输入的嵌入,学习嵌入空间中的线性模型来构建最终模型(称为 Emb-GAM),实现了透明的、线性的功能和特征交互,并能很好地泛化到新输入。通过各种自然语言处理数据集的实验,Emb-GAM 在不牺牲可解释性的情况下实现了强大的预测性能。
Sep, 2022
本研究提出一种新的 Gumbel-Attention 多模机器翻译模型,通过对图像特征进行选择,保留与文本相关的信息,进而提高多模机器翻译模型的翻译质量。
Mar, 2021
提出一种新的神经网络模型 MMTM,利用多任务和多解码器,在预训练期间创建变体任务,使用特定任务的解码器并使用 Transformer 架构。该模型在对抗性挑战数据集 SVAMP 上相对于 Seq2Seq,GTS 和 Graph2Tree 等模型有 19.4%的相对性能提高来取得更好的数学推理能力和普适性。
Jun, 2022
多头高斯自适应注意力机制(GAAM)和高斯自适应变换器(GAT)能够增强跨多种模态(包括语音、文本和视觉)的信息聚合,有效提升模型性能,特别是在处理高度非平稳数据时的准确度可以提升 20% 左右,并通过识别特征空间中的关键元素,进一步展示了模型的适应性和潜力。GAAM 不仅兼容基于点积的注意力模型,而且参数较少,展现了其对现有注意力框架的提升能力和潜在价值。通过实验证明,GAAM 在多种任务上具备出色的适应性和效果,包括情感识别、图像分类和文本分类,从而显示出其在处理多模态数据方面的健壮性和多功能性。此外,该研究还引入了重要性因子(IF),一种基于学习的度量指标,增强了 GAAM 方法训练模型的可解释性。总体而言,GAAM 代表了跨多模态的注意力模型在性能和可解释性方面的进展。
Jan, 2024
本研究提出了一种新颖的混合变压器模块(MTM),用于同时学习内部和外部联系,通过使用 MTM 构建的混合变压器 U-Net(MT-UNet)来进行精确的医学图像分割,实验结果显示,该方法实现了比其他最新技术方法更好的性能。
Nov, 2021
本文通过引入编码上下文并在条件生成对抗网络中使用,扩展了基于 Transformer 的时间序列生成对抗网络 (TTS-GAN),从而可以使用一个模型来拟合具有多个子组件的混合分布。通过定性和定量的评估指标,我们展示了该模型可以生成高维度和长时间序列数据,并在不同条件下具有较好的性能。
Oct, 2022
通过引入 3AM 数据集,本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题,并通过提供更具含糊性和更多种类的数据集,实现了对现有多模态机器翻译数据集更好的训练效果,进一步促进了多模态学习领域的研究和探索。
Apr, 2024
本文提出了一种神经广义加性模型(NODE-GAM)和神经广义加性和模型(NODE-GA^2M),这种模型相对于其他集成和深度学习模型而言更具有可解释性,且可以自监督预训练以提高模型准确性。
Jun, 2021
提出了一种新的文本到动作生成框架:Bidirectional Autoregressive Motion Model (BAMM),它由两个关键组件组成:将 3D 人体动作转换为潜在空间中的离散标记的动作分词器和通过混合注意掩蔽策略自回归预测随机屏蔽标记的掩蔽自注意力变换器。通过统一生成掩蔽建模和自回归建模,BAMM 捕捉了动作标记之间丰富而双向的依赖关系,同时学习了从文本输入到动作输出的概率映射,并具有动态调整的动作序列长度。大量在 HumanML3D 和 KIT-ML 数据集上的实验证明,BAMM 在定性和定量指标上均超过了当前最先进的方法。
Mar, 2024