生物医学问答专家混合模型

Apr, 2022

Mixture of Experts for Biomedical Question Answering

Damai Dai, Wenbin Jiang, Jiyuan Zhang, Weihua Peng, Yajuan Lyu...

TL;DR采用 Mixture-of-Expert 方法和 Transformer 模型，通过稀疏路由解决了领域差异性较大的生物医学问题的竞争参数问题，实现了最新的领先性能。

Abstract

biomedical question answering (BQA) has attracted increasing attention in recent years due to its promising application prospect. It is a challenging task because the biomedical questions are professional and usually vary widely. Existing question answering methods answer all questions

biomedical question answering mixture-of-expert based method sparse routing transformer model state-of-the-art performance

发现论文，激发创造

基于 Transformer 混合专家模型构建强健的问答系统

探索一种强大的问答系统的模型体系结构，其中使用了 Mixture-of-Experts 模型来训练具有更好鲁棒性的多任务学习器，该模型还使用了 DistilBERT 来生成问题向量；数据增强技术包括 Easy Data Augmentation (EDA) 和 back translation。通过这些方法，所提出的模型在严格的测试中实现了 53.477 F1 分数，比基线模型提高了 9.52％。该研究成功地证明了 Mixture-of-Expert 体系结构在 Robust QA 任务中的有效性。

Mar, 2022

结合领域知识的上下文嵌入和模型加权在生物医学问答中的融合应用

本研究提出了一种结合上下文嵌入方法、开放领域 QA 模型以及生物医学领域预训练模型 BioBERT 的生物医学问答方法，并采用无监督预训练和受监督微调的方式进行训练。实验结果表明，该方法在公共数据集 Biomrc 上相较于现有最先进系统有着显著的性能优势。

Jun, 2022

混合提示专家用于可推广和可解释的问答

该研究提出采用多专家模型集成的方式，使用不同的预测方法来解决传统单一模型难以泛化的问题，以在回答来自各种领域的问题时更好地表现。

May, 2023

生物医学实体链接作为多项选择问题回答

Biomedical entity linking is improved using BioELQA, a model that treats it as multiple choice question answering, capturing fine-grained interactions and addressing challenges with long-tailed entities.

Feb, 2024

MoEBERT: 通过重要性引导自适应将 BERT 转变为 Experts 混合

MoEBERT 是一种基于 Mixture-of-Experts 结构的深度神经网络模型，使用层级蒸馏方法训练高效且准确的预训练模型，用于自然语言理解和问答任务。

Apr, 2022

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

利用实体感知屏蔽策略提高低资源生物医学问答性能

本文提出了一种称为生物医学实体感知蒙版 (BEM) 的简单方法，以帮助受限于特定领域及其 COVID-19 文献的预训练语言模型进行微调，从而提升其生物医学问答数据集的性能。实验证明，该方法与先进模型具有相同的性能。

Feb, 2021

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

难度较高的任务需要更多的专家：MoE 模型中的动态路由

本文介绍了一种新颖的动态专家选择框架用于混合专家模型 (Mixture of Experts, MoE)，旨在通过根据输入难度调整激活的专家数量来提高计算效率和模型性能。我们的方法动态选择专家，而不是像传统 MoE 方法那样依赖固定的前 K 个路由，无论输入的复杂性如何，都会激活预定数量的专家。通过广泛的评估，我们的动态路由方法在各种基准测试中显示出明显的改进，相对于常规的前 2 个路由平均改进了 0.7%，激活参数不到 90%。进一步的分析显示，我们的模型向需要复杂推理技能的任务派遣更多的专家，如 BBH，验证了它根据输入的复杂性动态分配计算资源的能力。我们的发现还凸显了变压器模型不同层之间所需专家数量的差异，为设计异构 MoE 框架提供了洞察。代码和模型可在给定的 https URL 提供。

Mar, 2024

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022