基于对比学习的注意力加权专家混合模型在电子商务个性化排序中的应用

Jun, 2023

基于对比学习的注意力加权专家混合模型在电子商务个性化排序中的应用

Attention Weighted Mixture of Experts with Contrastive Learning for Personalized Ranking in E-commerce

Juan Gong, Zhenlin Chen, Chaoyi Ma, Zhuojian Xiao, Haonan Wang...

TL;DR该研究提出了一种基于 MoE 框架和对比学习的个性化排序方法 AW-MoE，能够有效地处理长尾用户和不同用户的个性化特征交互，并在真实的京东数据以及公共数据集上验证了其有效性和优越性。

Abstract

ranking model plays an essential role in e-commerce search and recommendation. An effective ranking model should give a personalized ranking

ranking model personalized ranking attention weighted mixture of experts moe contrastive learning

发现论文，激发创造

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022

对比学习和专家混合使得向量嵌入更精确

我们针对高度专业化的科学子领域中，传统方法不能很好地进行文本分类和矢量表示的问题，提出了使用共引作为相似度度量的专业数据集，并结合领域特定微调和专家混合的通用适应性方法，实现了在多个任务上具有高效性的通用 Transformer 网络，显著推进了科学文本分类指标的发展，并有望增强矢量数据库的搜索和编译。

Jan, 2024

通过混合词语专家实现记忆增强语言模型

该论文通过引入大型知识丰富词汇的路由功能和专家，以 Mixture-of-Experts (MoE) 风格模型，积极地解耦学习容量与 FLOPs，提出了一种名为 Mixture of Word Experts (MoWE) 的方法，它可以被视为一种记忆增强模型，其中一组特定于单词的专家起到了稀疏记忆的作用，研究表明，在各种 NLP 任务中，MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列，此外，MoWE 在知识密集型任务上胜过常规的 MoE 模型，并且具有与更复杂的记忆增强方法相似的性能，而后者通常需要调用自定义机制来搜索稀疏记忆。

Nov, 2023

基于 Attention-GRU 模型的品牌级别排名系统

本文提出了第一个品牌级别的排名系统，针对个性化品牌排名问题进行了特征工程设计，并通过包含三种重要改进的 Attention-GRU 模型对品牌进行排名。作者进行了一系列实验来评估该排名模型的有效性，并在淘宝等大型电子商务平台上测试了用户对品牌级别排名系统的反应。

May, 2018

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

高效的去除天气影响多专家模型：基于不确定性感知的特征线性调制

我们提出了一个高效的 Mixture-of-Feature-Modulation-Experts（MoFME）架构，通过权重共享在一组专家中隐式地实例化多个专家。同时，我们还提出了一种具有良好校准权重的不确定性感知路由器（UaR），以将任务特定的特征分配给不同的 FM 模块，从而使 MoFME 能够有效地学习多个任务的不同专家功能。在多去污任务上进行的实验证明，我们的 MoFME 在图像恢复质量方面优于基准 0.1-0.2 dB，并且相比传统的 MoE 方法，参数节省超过 72％，推理时间节省 39％以上。在下游分割和分类任务上进行的实验进一步证明了 MoFME 在真实开放世界应用中的普适性。

Dec, 2023

基于人类专业知识的可解释模型：优先采用专家混合模式

提出了一种名为 Preferential MoE 的人类 - 机器学习混合专家模型，它可以根据决策中有无人类专家经验的必要性，在需要时对数据分类器进行增强。该模型展示了可解释的门控函数，提供何时遵循或避免人类规则的信息。提出了解决具有凸次问题的耦合多目标问题。提出近似算法并研究其性能和收敛性。最后，我们演示了 Preferential MoE 在治疗人类免疫缺陷病毒（HIV）和管理重度抑郁症（MDD）的两个临床应用中的实用性。

Jan, 2021

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

用于参数高效微调的直觉感知的一级专家的混合模型

多任务场景下，大型语言模型（LLMs）面临着适应性挑战，而《混合专家模型》（MoE）以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》，利用实例的内在语义聚类处理多任务情境，为优化特征分配提供了隐含指导。此外，引入了先进的《Rank-1 专家公式》来管理一系列直觉，在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明，《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15％的整体准确度提升。

Apr, 2024

未选择的专家也能贡献：通过自对比释放 MoE 模型的力量

基于 Mixture-of-Experts 和 SCMoE 的推理能力在不同领域中得到了提升。

May, 2024