灵活适应的摘要生成技术通过专家分离
使用 Omni-SMoLA 结构及 Soft MoE 方法,在大规模多模态模型上实现了性能提升,广泛应用于生成式视觉与语言任务中,达到最新的至顶性能水平。
Dec, 2023
HydraSum 是一种新的总结架构,通过多个解码器自动学习不同样式的摘要并提供了一种简单机制以获得样式多样的摘要,同时使用训练期间的小改动可以实现对生成空间多个维度的变化。
Oct, 2021
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024
我们关注多领域神经机器翻译,旨在开发能够处理训练期间见过的各种领域数据并对未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合(SMoE)模型非常适合这个任务,因为它们能够实现高效的模型扩展,有助于适应各种多领域数据,并允许领域间参数的灵活共享,从而可能实现类似领域之间的知识传递,并限制负面传递。我们进行了一系列实验证实 SMoE 在多领域场景中的效用,并发现在实践中,对 Transformer 进行简单的宽度扩展是一种更简洁且出人意料地高效的方法,其达到了与 SMoE 相同的性能水平。我们还寻求多领域系统的更好鲁棒性方法,强调了混合通用领域(如 Paracrawl)的重要性,并引入了一种简单的技术,即领域随机化。
Jul, 2024
我们针对高度专业化的科学子领域中,传统方法不能很好地进行文本分类和矢量表示的问题,提出了使用共引作为相似度度量的专业数据集,并结合领域特定微调和专家混合的通用适应性方法,实现了在多个任务上具有高效性的通用 Transformer 网络,显著推进了科学文本分类指标的发展,并有望增强矢量数据库的搜索和编译。
Jan, 2024
探索一种强大的问答系统的模型体系结构,其中使用了 Mixture-of-Experts 模型来训练具有更好鲁棒性的多任务学习器,该模型还使用了 DistilBERT 来生成问题向量;数据增强技术包括 Easy Data Augmentation (EDA) 和 back translation。通过这些方法,所提出的模型在严格的测试中实现了 53.477 F1 分数,比基线模型提高了 9.52%。该研究成功地证明了 Mixture-of-Expert 体系结构在 Robust QA 任务中的有效性。
Mar, 2022
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音,因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题,他们提出了 “Summary Chain-of-Thought(SumCoT)” 技术,通过逐步摘要的方式生成细粒度的摘要。利用新的测试集,研究人员观察到 LLM 具有惊人的零 - shot 摘要能力,该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明,该方法在两个数据集上的 ROUGE-L 优于现有技术。
May, 2023