结构多样采样:实现高效训练和全面评估
本文研究了使用自动生成的合成语言 - 程序组对来改善语义解析中组合泛化的问题,通过使用具有结构多样性的样本,我们获得了在数据效率方面 200 倍的提高,并且在 schema2QA 数据集上,模型在组合泛化方面取得了显著的提高和在传统的 i.i.d 设置下取得了适度的提高。
Sep, 2021
本文提出一种使用不同的演示程序来鼓舞模型学习新体系结构的方法,以解决复合泛化的问题,并表明在纯实际学习设置和与微调结合使用时,结合多样化的演示可以显著提高三个组合泛化语义分析数据集的性能。
Dec, 2022
本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题,并提出了一种灵活的方法,它包含模型构建者和其他利益相关者的偏好,以及学习任务的统计特性。此外,我们证明,在一定条件下,即使没有关于学习率的先前知识,该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究,我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法,包括等量和比例采样,并证明了通过策略数据集设计构建公平模型的价值。
Jan, 2022
通过在组合项集上应用子模函数和高阶潜力,探索用于在结构化输出空间中找到多元解法子集的贪心算法,将贪心增广步骤降低到带有适当构造的高阶潜力的因子图推理中,以实现高效近似最大化。
Nov, 2014
通过引入自我演变机制 DiverseEvol,我们提出了一种标签高效的指令调整方法,该方法允许模型自己主动采样同样或更有效的子集来改善自身性能,而无需人类干预或更先进的 LLMs。在选择子集时,我们的数据采样技术的关键在于增强所选子集的多样性,使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了 DiverseEvol 的有效性。我们的模型在原始数据集的不到 8% 的训练基础上,与在完整数据上进行微调相比,性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此 https URL 公开获取。
Nov, 2023
通过研究可视化问答问题,我们发现培训数据多样性对于实现系统化概括至关重要,而简单任务的多样性在实现系统化概括方面起着关键作用。同时,我们观察到神经模块网络利用了我们评估的所有数据多样性形式,而整体架构需要更多的数据来实现相同的效果。这些发现对于理解数据多样性设计、神经网络架构和系统化概括能力之间的相互作用提供了初步的认识。
Sep, 2023
数据增强方法在预训练 seq2seq 模型中对于复合泛化很有效,但仅在从正确分布中进行采样时。从均匀分布中进行采样的表现几乎与从测试分布中采样相当,并且明显优于从训练分布中采样的先前方法。我们进一步进行实验证明了这种情况发生的原因和这种数据增强方法带来的好处。
Jan, 2024
增加训练数据集的多样性可以提高自我监督学习的性能,但前提是下游数据的分布差异很小。即使通过网络爬虫或扩散生成的方法等方式实现了非常庞大的预训练数据多样性,分布的变化仍然是一个挑战。
Mar, 2024
本研究探讨了不同的采样技术对音乐质量的影响,训练了一个高容量的变形器模型,使用概率截断采样技术分析样本的音乐特性,在优化和非优化的情况下评估了生成的样本。
Aug, 2023