机器学习中的多样性
研究表明,任务分配在元学习者的表现中起着至关重要的作用。传统的智慧认为,任务多样性应该能够提高元学习的性能。然而,本文发现相反的证据。通过实验证据和理论证明,我们发现,将任务分配的多样性降低到一个子集水平,有时的效果甚至更好,并且将任务分配的多样性提高到更高水平的某些情形下,反而会阻碍模型的运作,并且不会带来预期的性能提升。
Jan, 2022
通过研究可视化问答问题,我们发现培训数据多样性对于实现系统化概括至关重要,而简单任务的多样性在实现系统化概括方面起着关键作用。同时,我们观察到神经模块网络利用了我们评估的所有数据多样性形式,而整体架构需要更多的数据来实现相同的效果。这些发现对于理解数据多样性设计、神经网络架构和系统化概括能力之间的相互作用提供了初步的认识。
Sep, 2023
本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担,但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。
Dec, 2019
通过竞赛平台的众包机器学习是一种流行且常见的方法,这篇论文开发了一种另类的众包框架来整合社区反馈,以解决群体不公平问题,并提供了关于部署这种框架的具体指导。
Feb, 2024
指令调整对于大型语言模型的校准是关键步骤。数据集选择是指令调整的核心挑战之一,因为指令调整数据集的组成可以显著影响后续性能。本文提出了一种新的系统 —— 质量 - 多样性指令调整(QDIT),提供了一个有原则的算法来控制数据集的多样性和质量,我们通过深入研究数据集多样性和质量对于指令调整性能的影响来得出两个关键见解:(1)数据集的多样性和质量之间存在自然的权衡关系,(2)增加数据集的多样性显著提高了最坏情况的指令跟随性能,从而提高了鲁棒性。通过在几个大规模指令调整数据集上验证 QDIT 的性能,我们发现它可以在维持或提高平均性能的同时,提高最坏情况性能达 18%,相比质量驱动基准线。
Nov, 2023
本文研究了集成技术在机器学习中的广泛应用,特别是在神经网络中多样性的确切角色、如何衡量它以及它如何促进神经网络集成算法的研究。在三种常用的损失函数和两种常用的模型组合策略的基础上,通过神经网络集成进行了实证验证。
Oct, 2021
本研究探讨了机器学习应用于决策过程中的异质性,提出了价值观、文化和法规、数据组成以及资源和基础设施能力三个因素对 ML 产品轨迹的影响,并强调了需要联合考虑和解决这些因素的必要性。
Jun, 2023