GAMMT：使用多个 Transformer 进行生成性歧义建模

Nov, 2022

GAMMT：使用多个 Transformer 进行生成性歧义建模

GAMMT: Generative Ambiguity Modeling Using Multiple Transformers

Xingcheng Xu

TL;DR介绍了一种基于概率集的序列数据模型 GAMMT，运用多重变压器连接机制处理模糊的概率，以多种方式表示输入令牌和输入序列，探索了注意力机制和模糊性的组合作用，通过深度神经网络实现模糊性建模，为机器学习的新研究提供框架，提高我们对关注度 - 模糊机制的理解。

Abstract

We introduce a new model based on sets of probabilities for sequential data. We name the model gammt, which stands for Generative Ambiguit

gammt probabilities sequential data attention mechanism neural networks

发现论文，激发创造

Emb-GAM：使用预训练语言模型的可解释和高效预测器

该研究利用神经语言模型提取输入的嵌入，学习嵌入空间中的线性模型来构建最终模型（称为 Emb-GAM），实现了透明的、线性的功能和特征交互，并能很好地泛化到新输入。通过各种自然语言处理数据集的实验，Emb-GAM 在不牺牲可解释性的情况下实现了强大的预测性能。

Sep, 2022

多模机器翻译中的 Gumbel-Attention

本研究提出一种新的 Gumbel-Attention 多模机器翻译模型，通过对图像特征进行选择，保留与文本相关的信息，进而提高多模机器翻译模型的翻译质量。

Mar, 2021

MMTM：用于数学应用题的多任务多解码器变换器

提出一种新的神经网络模型 MMTM，利用多任务和多解码器，在预训练期间创建变体任务，使用特定任务的解码器并使用 Transformer 架构。该模型在对抗性挑战数据集 SVAMP 上相对于 Seq2Seq，GTS 和 Graph2Tree 等模型有 19.4％的相对性能提高来取得更好的数学推理能力和普适性。

Jun, 2022

高斯自适应注意力是你所需的一切：跨多种模态的强大情境表示

多头高斯自适应注意力机制（GAAM）和高斯自适应变换器（GAT）能够增强跨多种模态（包括语音、文本和视觉）的信息聚合，有效提升模型性能，特别是在处理高度非平稳数据时的准确度可以提升 20% 左右，并通过识别特征空间中的关键元素，进一步展示了模型的适应性和潜力。GAAM 不仅兼容基于点积的注意力模型，而且参数较少，展现了其对现有注意力框架的提升能力和潜在价值。通过实验证明，GAAM 在多种任务上具备出色的适应性和效果，包括情感识别、图像分类和文本分类，从而显示出其在处理多模态数据方面的健壮性和多功能性。此外，该研究还引入了重要性因子（IF），一种基于学习的度量指标，增强了 GAAM 方法训练模型的可解释性。总体而言，GAAM 代表了跨多模态的注意力模型在性能和可解释性方面的进展。

Jan, 2024

混合 Transformer U-Net 用于医学图像分割

本研究提出了一种新颖的混合变压器模块（MTM），用于同时学习内部和外部联系，通过使用 MTM 构建的混合变压器 U-Net（MT-UNet）来进行精确的医学图像分割，实验结果显示，该方法实现了比其他最新技术方法更好的性能。

Nov, 2021

基于 Transformer 的条件生成对抗网络用于多元时间序列生成

本文通过引入编码上下文并在条件生成对抗网络中使用，扩展了基于 Transformer 的时间序列生成对抗网络 (TTS-GAN)，从而可以使用一个模型来拟合具有多个子组件的混合分布。通过定性和定量的评估指标，我们展示了该模型可以生成高维度和长时间序列数据，并在不同条件下具有较好的性能。

Oct, 2022

3AM: 一个模糊感知的多模式机器翻译数据集

通过引入 3AM 数据集，本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题，并通过提供更具含糊性和更多种类的数据集，实现了对现有多模态机器翻译数据集更好的训练效果，进一步促进了多模态学习领域的研究和探索。

Apr, 2024

NODE-GAM: 神经广义加性模型用于可解释的深度学习

本文提出了一种神经广义加性模型（NODE-GAM）和神经广义加性和模型（NODE-GA^2M），这种模型相对于其他集成和深度学习模型而言更具有可解释性，且可以自监督预训练以提高模型准确性。

Jun, 2021

多轨音乐变换器

提出了一种新型的多轨音乐表示方式，可以同时包含多种不同类型的乐器，并实现了基于音乐自注意力的实时即兴演奏，该方法在速度和内存占用方面都具有优势。

Jul, 2022

BAMM: 双向自回归运动模型

提出了一种新的文本到动作生成框架：Bidirectional Autoregressive Motion Model (BAMM)，它由两个关键组件组成：将 3D 人体动作转换为潜在空间中的离散标记的动作分词器和通过混合注意掩蔽策略自回归预测随机屏蔽标记的掩蔽自注意力变换器。通过统一生成掩蔽建模和自回归建模，BAMM 捕捉了动作标记之间丰富而双向的依赖关系，同时学习了从文本输入到动作输出的概率映射，并具有动态调整的动作序列长度。大量在 HumanML3D 和 KIT-ML 数据集上的实验证明，BAMM 在定性和定量指标上均超过了当前最先进的方法。

Mar, 2024