机器学习中的多样性

Jul, 2018

Diversity in Machine Learning

Zhiqiang Gong, Ping Zhong, Weidong Hu

TL;DR本文对机器学习中的数据、模型和推理多样化进行系统总结，并探讨了多样性技术在其中所面临的挑战和未来工作的方向。

Abstract

machine learning methods have achieved good performance and been widely applied in various real-world applications. They can learn the model adaptively and be better fit for special requirements of different tasks. Generally, a good →

machine learning diversification training data model training inference

发现论文，激发创造

元学习中多样性的影响

研究表明，任务分配在元学习者的表现中起着至关重要的作用。传统的智慧认为，任务多样性应该能够提高元学习的性能。然而，本文发现相反的证据。通过实验证据和理论证明，我们发现，将任务分配的多样性降低到一个子集水平，有时的效果甚至更好，并且将任务分配的多样性提高到更高水平的某些情形下，反而会阻碍模型的运作，并且不会带来预期的性能提升。

Jan, 2022

D3：面向视觉问答中系统化概括的数据多样性设计

通过研究可视化问答问题，我们发现培训数据多样性对于实现系统化概括至关重要，而简单任务的多样性在实现系统化概括方面起着关键作用。同时，我们观察到神经模块网络利用了我们评估的所有数据多样性形式，而整体架构需要更多的数据来实现相同的效果。这些发现对于理解数据多样性设计、神经网络架构和系统化概括能力之间的相互作用提供了初步的认识。

Sep, 2023

局部独立预测模型集合

本文通过介绍新的多样性度量方法介绍了一种新的模型集成方法，该方法特别适用于数据限制和协变量转移，可显著提高模型的多样性和泛化性能。

Nov, 2019

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

多样化集成：众包机器学习实验

通过竞赛平台的众包机器学习是一种流行且常见的方法，这篇论文开发了一种另类的众包框架来整合社区反馈，以解决群体不公平问题，并提供了关于部署这种框架的具体指导。

Feb, 2024

数据多样性对于稳健指令调整至关重要

指令调整对于大型语言模型的校准是关键步骤。数据集选择是指令调整的核心挑战之一，因为指令调整数据集的组成可以显著影响后续性能。本文提出了一种新的系统 —— 质量 - 多样性指令调整（QDIT），提供了一个有原则的算法来控制数据集的多样性和质量，我们通过深入研究数据集多样性和质量对于指令调整性能的影响来得出两个关键见解：（1）数据集的多样性和质量之间存在自然的权衡关系，（2）增加数据集的多样性显著提高了最坏情况的指令跟随性能，从而提高了鲁棒性。通过在几个大规模指令调整数据集上验证 QDIT 的性能，我们发现它可以在维持或提高平均性能的同时，提高最坏情况性能达 18％，相比质量驱动基准线。

Nov, 2023

自监督学习中的特征多样性

本文研究在自监督学习中，多个因素如规模、宽度、深度和特征多样性对模型的泛化性能产生的影响，并探讨了它们之间的相互依存关系。

Sep, 2022

神经网络集合中的多样性和泛化

本文研究了集成技术在机器学习中的广泛应用，特别是在神经网络中多样性的确切角色、如何衡量它以及它如何促进神经网络集成算法的研究。在三种常用的损失函数和两种常用的模型组合策略的基础上，通过神经网络集成进行了实证验证。

Oct, 2021

机器学习中异质性交织轴的揭示：迎接民主与包容进步

本研究探讨了机器学习应用于决策过程中的异质性，提出了价值观、文化和法规、数据组成以及资源和基础设施能力三个因素对 ML 产品轨迹的影响，并强调了需要联合考虑和解决这些因素的必要性。

Jun, 2023

从集成学习中学习时，多样性非常重要

通过对集成方法进行扰动，可以增加模型多样性并提升性能。

Oct, 2021