关键词data selection methods
搜索结果 - 4
- 语言模型数据选择调查
该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域,旨在为新老研究人员提供入门点,加速数据选择领域的进展。
- LLM 指导调优的数据选择调查
通过介绍使用的指导数据集,提出了数据选择方法的新分类,并详细介绍了最近的研究进展、评估策略和结果,强调了这一任务的挑战和新的前沿。
- 语言模型预训练的高效在线数据混合
研究论文通过开发一种高效的在线数据混合算法(ODM),结合了数据选择和数据混合的元素,优化了训练过程中的数据混合比例,提高了大型语言模型的性能。
- 数据选择的熵和边缘得分指标的全面基准评估
在工业规模的环境中,特别是在资源有限的语言中,我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”,并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛