基于对比学习的注意力加权专家混合模型在电子商务个性化排序中的应用
本文提出了一种新的神经网络结构 MoA (即 Mixture of Attention Heads),它结合了 Mixture-of-Experts 和 Multi-head Attention 机制,通过动态地选择 Attention Heads 实现了条件计算,有效提高了多个自然语言处理任务的性能,并提供了一种新的模型可解释性视角。
Oct, 2022
我们针对高度专业化的科学子领域中,传统方法不能很好地进行文本分类和矢量表示的问题,提出了使用共引作为相似度度量的专业数据集,并结合领域特定微调和专家混合的通用适应性方法,实现了在多个任务上具有高效性的通用 Transformer 网络,显著推进了科学文本分类指标的发展,并有望增强矢量数据库的搜索和编译。
Jan, 2024
该论文通过引入大型知识丰富词汇的路由功能和专家,以 Mixture-of-Experts (MoE) 风格模型,积极地解耦学习容量与 FLOPs,提出了一种名为 Mixture of Word Experts (MoWE) 的方法,它可以被视为一种记忆增强模型,其中一组特定于单词的专家起到了稀疏记忆的作用,研究表明,在各种 NLP 任务中,MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列,此外,MoWE 在知识密集型任务上胜过常规的 MoE 模型,并且具有与更复杂的记忆增强方法相似的性能,而后者通常需要调用自定义机制来搜索稀疏记忆。
Nov, 2023
本文提出了第一个品牌级别的排名系统,针对个性化品牌排名问题进行了特征工程设计,并通过包含三种重要改进的 Attention-GRU 模型对品牌进行排名。作者进行了一系列实验来评估该排名模型的有效性,并在淘宝等大型电子商务平台上测试了用户对品牌级别排名系统的反应。
May, 2018
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
Feb, 2023
我们提出了一个高效的 Mixture-of-Feature-Modulation-Experts(MoFME)架构,通过权重共享在一组专家中隐式地实例化多个专家。同时,我们还提出了一种具有良好校准权重的不确定性感知路由器(UaR),以将任务特定的特征分配给不同的 FM 模块,从而使 MoFME 能够有效地学习多个任务的不同专家功能。在多去污任务上进行的实验证明,我们的 MoFME 在图像恢复质量方面优于基准 0.1-0.2 dB,并且相比传统的 MoE 方法,参数节省超过 72%,推理时间节省 39%以上。在下游分割和分类任务上进行的实验进一步证明了 MoFME 在真实开放世界应用中的普适性。
Dec, 2023
提出了一种名为 Preferential MoE 的人类 - 机器学习混合专家模型,它可以根据决策中有无人类专家经验的必要性,在需要时对数据分类器进行增强。该模型展示了可解释的门控函数,提供何时遵循或避免人类规则的信息。提出了解决具有凸次问题的耦合多目标问题。提出近似算法并研究其性能和收敛性。最后,我们演示了 Preferential MoE 在治疗人类免疫缺陷病毒(HIV)和管理重度抑郁症(MDD)的两个临床应用中的实用性。
Jan, 2021
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024