我们提出了一个训练免费的集成框架 DEEPEN,通过平均不同大型语言模型输出的概率分布来解决现有方法中的词汇差异问题,并在涉及主观考试、推理和知识问答的六个流行基准测试中获得了一致的改进效果。
Apr, 2024
本文探讨了从预训练模型中创建集成模型的不同方法,并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中(视觉任务适应基准),即使从超过 2000 个预训练模型中进行选择,其实现了具有较低推理预算的最先进性能,并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。
Oct, 2020
利用拓扑数据分析(TDA)提取 BERT 模型的可解释的拓扑特征,用于区分人工生成的文本和真实的文本,证明 TDA 对于包含表面和结构信息的 NLP 任务是具有前景的。
Sep, 2021
我们提出了两种高效的集成策略,DROPOUT ENSEMBLE 和 LORA ENSEMBLE,可以显著降低训练时间(高达 80%),服务时间(高达 60%)和空间成本(高达 80%),在保持与原有独立集成相似的归因效果的同时,有效地改善了计算效率和归因效果的 Pareto 最前沿。
May, 2024
通过形式分析和实证评估,本文展示了异构深度集成模型可以通过高集成多样性有效地利用模型学习的异质性以提高集成的鲁棒性。
Oct, 2023
本论文介绍了一种利用拓扑数据分析法(TDA)分析语音的新方法,通过引入一系列从 Transformer 注意力映射和嵌入中得出的拓扑和代数特征,展示了建立在这些特征之上的简单线性分类器优于微调分类头的表现,并展示了拓扑特征能够揭示语音 Transformer 头的功能角色。
Nov, 2022
本文通过介绍新的多样性度量方法介绍了一种新的模型集成方法,该方法特别适用于数据限制和协变量转移,可显著提高模型的多样性和泛化性能。
Nov, 2019
本文研究了集成技术在机器学习中的广泛应用,特别是在神经网络中多样性的确切角色、如何衡量它以及它如何促进神经网络集成算法的研究。在三种常用的损失函数和两种常用的模型组合策略的基础上,通过神经网络集成进行了实证验证。
Oct, 2021
本研究提出了一种基于集成方法和迁移学习的框架以及一种低成本的迁移学习方法,用于解决非英语语言的实体共指消解问题,并在 Arabic,Dutch 和 Spanish 三种语言上取得了新的最先进结果。
Jan, 2023
本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。
Dec, 2022