生物医学问答专家混合模型
探索一种强大的问答系统的模型体系结构,其中使用了 Mixture-of-Experts 模型来训练具有更好鲁棒性的多任务学习器,该模型还使用了 DistilBERT 来生成问题向量;数据增强技术包括 Easy Data Augmentation (EDA) 和 back translation。通过这些方法,所提出的模型在严格的测试中实现了 53.477 F1 分数,比基线模型提高了 9.52%。该研究成功地证明了 Mixture-of-Expert 体系结构在 Robust QA 任务中的有效性。
Mar, 2022
本研究提出了一种结合上下文嵌入方法、开放领域 QA 模型以及生物医学领域预训练模型 BioBERT 的生物医学问答方法,并采用无监督预训练和受监督微调的方式进行训练。实验结果表明,该方法在公共数据集 Biomrc 上相较于现有最先进系统有着显著的性能优势。
Jun, 2022
Biomedical entity linking is improved using BioELQA, a model that treats it as multiple choice question answering, capturing fine-grained interactions and addressing challenges with long-tailed entities.
Feb, 2024
MoEBERT 是一种基于 Mixture-of-Experts 结构的深度神经网络模型,使用层级蒸馏方法训练高效且准确的预训练模型,用于自然语言理解和问答任务。
Apr, 2022
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
本文提出了一种称为生物医学实体感知蒙版 (BEM) 的简单方法,以帮助受限于特定领域及其 COVID-19 文献的预训练语言模型进行微调,从而提升其生物医学问答数据集的性能。实验证明,该方法与先进模型具有相同的性能。
Feb, 2021
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
本文介绍了一种新颖的动态专家选择框架用于混合专家模型 (Mixture of Experts, MoE),旨在通过根据输入难度调整激活的专家数量来提高计算效率和模型性能。我们的方法动态选择专家,而不是像传统 MoE 方法那样依赖固定的前 K 个路由,无论输入的复杂性如何,都会激活预定数量的专家。通过广泛的评估,我们的动态路由方法在各种基准测试中显示出明显的改进,相对于常规的前 2 个路由平均改进了 0.7%,激活参数不到 90%。进一步的分析显示,我们的模型向需要复杂推理技能的任务派遣更多的专家,如 BBH,验证了它根据输入的复杂性动态分配计算资源的能力。我们的发现还凸显了变压器模型不同层之间所需专家数量的差异,为设计异构 MoE 框架提供了洞察。代码和模型可在给定的 https URL 提供。
Mar, 2024
我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
Feb, 2022