使用超参数调整的模型叠加技术进行编码问题标注
通过收集来自 Codeforces 的问题样本,我们提出了一个用于预测算法标签的真实世界算法问题多任务数据集,这是迄今为止与之前的研究相比最大规模的数据集。此外,我们的工作是首次解决算法问题难度级别的预测,我们提出了一种基于深度学习的新方法,可以同时预测算法标签和算法问题的难度级别。
Oct, 2023
本文演示了如何利用多智能体系统开发一个分布式技术,用于确定任意集合的超参数的近似最优值,并在机器学习和全局函数优化应用中进行了研究。研究表明,在更高的维度下,所提出的模型在分类误差和函数评估方面都优于其底层随机调优策略。
May, 2022
通过使用文本分类技术来确定竞技编程问题的领域的方法,使用 LSTM、GRU 和 MLP 等多种模型对 Codeforces 网站上的 2400 个问题进行训练和测试,最高准确度达到 78.0%。
Aug, 2023
本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况,包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型,并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现,更激进地过滤近似重复的数据可以进一步提高性能,并令人惊讶的是,从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B),尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。
Jan, 2023
本研究探讨了超参数优化中的堆叠集成元学习器,它无需超参数调整,能够减少多重共线性效应,并考虑了集成学习过程的泛化能力。其中,增强策略作为堆叠元学习器显示出很大的潜力,并且完全消除了多重共线性的影响。本文提出了经典增强方法中的隐式正则化和一种新的非参数停止准则,仅适用于增强策略,并专门为超参数优化而设计。这两个增强方法的协同作用与其他现有的堆叠元学习和集成方法相比,显示出有竞争力和有希望的预测性能。
Feb, 2024
本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack,以及如何构建、管理和使用该数据集来训练大型语言模型,通过在 Python 子集上训练 350M 参数解码器,在文本到代码的基准测试上取得了有前途的结果。
Nov, 2022
本篇论文研究了常见机器学习模型的超参数优化,介绍了一些最先进的优化技术,并讨论了如何将它们应用于机器学习算法。同时,也提供了许多用于超参数优化问题的库和框架,并在基准数据集上进行了实验,以比较不同优化方法的性能,提供超参数优化的实际例子。该综述论文将帮助工业用户、数据分析师和研究人员通过有效地识别适当的超参数配置来更好地开发机器学习模型。
Jul, 2020
本文提出了一种基于梯度提升和自动超参数调整的自动机器学习框架 (autoxgboost),与目前的 AutoML 项目进行了比较,并在 16 个数据集上取得了可比较的结果和两个最佳表现。
Jul, 2018