RF+clust 用于留一问题外性能预测

Jan, 2023

RF+clust for Leave-One-Problem-Out Performance Prediction

Ana Nikolikj, Carola Doerr, Tome Eftimov

TL;DR研究自动算法配置和性能预测的方法，在机器学习中使用 “留一问题”，分析了随机森林模型和基于余弦相似度测量特征相似性阈值对预测性能的影响，并提出了零样本学习环境下的特征选择问题。

Abstract

Per-instance automated algorithm configuration and selection are gaining significant moments in evolutionary computation in recent years. Two crucial, sometimes implicit, ingredients for these automated

automated algorithm configuration evolutionary computation performance prediction machine learning feature selection

发现论文，激发创造

RF + 聚类模型在留一验证中的性能敏感度分析

本研究提出了一种改进的 RF + clust 方法，通过调整基于距离的权重与回归模型的特征相关性来解决 LOPO 问题，并在 CEC 2014 基准套件上实验证明了其优越性。

May, 2023

分布偏差对留一交叉验证的影响

通过研究我们发现，在机器学习模型的性能评估中，交叉验证方法会引入分布偏差现象，导致性能评估及超参数优化受到负面影响。为了解决这个问题，我们提出了一个通用的校正分布偏差的交叉验证方法，并通过合成模拟和多个已发布的实验验证结果。

Jun, 2024

评估性能预测模型的泛化能力

本研究提出了一种可以估算算法性能预测模型泛化能力的方法，并通过在基准测试套件之间训练预测模型来测试该方法的可行性，结果表明，特征空间中的泛化模式确实反映在性能空间中。

May, 2023

提升随机森林的本地可解释性：一种基于邻近性的方法

通过利用随机森林模型中的特征空间中的点之间的相似性，我们提出了一种新的方法来解释随机森林的样本外表现，这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值，并为模型预测生成任何观测的归因，从而补充了 SHAP 等现有的针对模型预测在特征空间维度上生成的归因的方法。我们在美国公司债券交易的债券定价模型的背景下演示了这种方法，并将其与各种现有的模型可解释性方法进行了比较。

Oct, 2023

通过近似留一法估计可扩展的样本外预测误差

研究高维环境下的样本外风险估计问题，介绍了一种计算效率高的闭式近似留一法，适用于大多数正则化估计器，并通过理论分析和实验数据验证了其优秀的绩效表现和实际应用的可行性。

Jan, 2018

最优加权随机森林

本文提出了一种基于权重优化的随机森林算法，通过极小化预测误差和风险来决定基本学习器的权重，实验结果显示该算法在回归问题上的预测精度优于其他算法。

May, 2023

高维快速参数调整的近似留一法

本文提出了两种框架来解决高维情境下通过加入惩罚项来降低过拟合的问题，同时证明了二者在光滑条件下的等效性，并在多个标准问题中验证了该方法的有效性。

Jul, 2018

基于置信度的模型选择：何时为子集群转移采取捷径

本文提出 COnfidence-baSed MOdel Selection（CosMoS）方法，基于模型置信度动态选择不同强度的模型来在多数和少数子群体上实现高性能，并使用多个数据集验证其性能。

Jun, 2023

大数据贝叶斯留一验证

模型推理是模型开发的重要部分，Leave-one-out 交叉验证方法在评估模型泛化能力方面普遍适用，但是不适用于大型数据集。我们提出了一种结合近似推理技术和大小为概率比例采样的方法，用于快速评估大型数据集的 LOO 模型，提供了理论和实证结果来说明其性能优良。

Apr, 2019

关于参数学习中的最优泛化

本文提出了一种快速且准确的基于参数学习的交叉验证策略 ALOOCV，并利用其开发了一种基于经验风险最小化框架的正则化优化算法。

Nov, 2017