使用超参数调整的模型叠加技术进行编码问题标注

Jun, 2023

使用超参数调整的模型叠加技术进行编码问题标注

Stacking of Hyperparameter Tuned Models for Tagging Coding Problems

Sathya Krishnan TS, S. Lakshmana Pandian, P. Shunmugapriya

TL;DR本文提出使用超参数调节提高准确率的增强模型堆叠来帮助编码问题的练习，取得了 77.8％的准确率和 0.815 的 PR-AUC，并公开了数据集和模型。

Abstract

coding problems are problems that require a solution in the form of a computer program. coding problems are popular among students and professionals as it enhances their skills and career opportunities. An

coding problems ai system boosting models dataset open source

发现论文，激发创造

竞技编程问题的算法标签和难度预测指南

通过收集来自 Codeforces 的问题样本，我们提出了一个用于预测算法标签的真实世界算法问题多任务数据集，这是迄今为止与之前的研究相比最大规模的数据集。此外，我们的工作是首次解决算法问题难度级别的预测，我们提出了一种基于深度学习的新方法，可以同时预测算法标签和算法问题的难度级别。

Oct, 2023

层次协作超参数调整

本文演示了如何利用多智能体系统开发一个分布式技术，用于确定任意集合的超参数的近似最优值，并在机器学习和全局函数优化应用中进行了研究。研究表明，在更高的维度下，所提出的模型在分类误差和函数评估方面都优于其底层随机调优策略。

May, 2022

使用深度学习技术对竞赛编程问题进行标签预测

通过使用文本分类技术来确定竞技编程问题的领域的方法，使用 LSTM、GRU 和 MLP 等多种模型对 Codeforces 网站上的 2400 个问题进行训练和测试，最高准确度达到 78.0%。

Aug, 2023

SantaCoder: 别急着去触摸星星！

本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况，包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型，并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现，更激进地过滤近似重复的数据可以进一步提高性能，并令人惊讶的是，从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B)，尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。

Jan, 2023

具有不断增大系数幅值停止准则和元学习器的正则化提升优化叠加模型

本研究探讨了超参数优化中的堆叠集成元学习器，它无需超参数调整，能够减少多重共线性效应，并考虑了集成学习过程的泛化能力。其中，增强策略作为堆叠元学习器显示出很大的潜力，并且完全消除了多重共线性的影响。本文提出了经典增强方法中的隐式正则化和一种新的非参数停止准则，仅适用于增强策略，并专门为超参数优化而设计。这两个增强方法的协同作用与其他现有的堆叠元学习和集成方法相比，显示出有竞争力和有希望的预测性能。

Feb, 2024

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

机器学习算法超参数优化：理论与实践

本篇论文研究了常见机器学习模型的超参数优化，介绍了一些最先进的优化技术，并讨论了如何将它们应用于机器学习算法。同时，也提供了许多用于超参数优化问题的库和框架，并在基准数据集上进行了实验，以比较不同优化方法的性能，提供超参数优化的实际例子。该综述论文将帮助工业用户、数据分析师和研究人员通过有效地识别适当的超参数配置来更好地开发机器学习模型。

Jul, 2020

调参还是不调参？一种推荐重要超参数的方法

本文探讨机器学习模型性能和超参数之间的关系，通过实验结果发现了趋势和启示，并得出使用梯度提升和 Adaboost 分类器是最佳选择的结论。

Aug, 2021

模型搜索科学化

本研究提出了一种元模型方法，支持自动化超参数优化，以取代手动调试，实现易复制和公正的优化过程，并在三个不同的计算机视觉问题上获得了最新的结果。

Sep, 2012

自动梯度提升

本文提出了一种基于梯度提升和自动超参数调整的自动机器学习框架 (autoxgboost)，与目前的 AutoML 项目进行了比较，并在 16 个数据集上取得了可比较的结果和两个最佳表现。

Jul, 2018