使用梯度词汇选择优化神经网络

ICLRDec, 2023

Optimizing Neural Networks with Gradient Lexicase Selection

Li Ding, Lee Spector

TL;DR深度学习中的梯度词典选择方法通过演化方法结合梯度下降和词典选择，改进了各种广泛使用的深度神经网络在图像分类中的泛化性能。

Abstract

One potential drawback of using aggregated performance measurement in machine learning is that models may learn to accept higher errors on some training cases as compromises for lower errors on others, with the lower errors actually being instances of →

aggregated performance measurement overfitting lexicase selection deep learning generalization performance

发现论文，激发创造

DALex: 通过多样化聚合的类 Lexicase 选择

DALex 方法通过矩阵乘法的优化与并行算法在速度上实现了对于 lexicase selection 的显著加速，而且在问题解决的性能上几乎保持一致，从而为解决更加困难的问题提供了潜在的可能性。

Jan, 2024

规模下的词法选择

提出了一种新的方法 —— 快速词典选择法，它结合了词典选择、加权随机和部分评估，并在经典基因编程和深度学习任务上进行了实验证明，该方法可以显著降低选择个体所需评估步骤的数量，提高选择效率的同时，保持其性能。

Aug, 2022

概率词汇选择

介绍了一种名为概率词典选择的父代选择算法，用于解决遗传编程的编程合成和符号回归问题，通过显式表示选择过程的概率分布实现提高效率和灵活性，在计算效率上明显优于以往的词典选择算法

May, 2023

基于树形结构的自动机器学习中利用词典选择进行更快的收敛

本文通过在自动化机器学习系统 Tree-based Pipeline Optimization Tool（TPOT）中的机器学习管线中进行实验，比较了两种常用的父母选择方法的作用，结果表明，相对于 NSGA-II 选择方案，lexicase 选择方案能够显著提高收敛速度；我们还使用包含有关在特定运行中探索的管道信息的 trie 数据结构比较了这些选择方法对搜索空间部分的探索。

Feb, 2023

公平特征选择：多目标遗传算法比较

该研究论文研究了公平分类中的特征选择问题，通过比较两种基于遗传算法的多目标优化方法，即帕累托支配型遗传算法和词典优化型遗传算法，发现词典优化型遗传算法在提升准确性的同时，不降低分类器的公平性，为公平分类研究指明了一条有前景的新方向。

Oct, 2023

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

深度神经网络选择性分类基准测试

通过对包含图像和表格数据的多样化数据集进行实证评估，该研究对 18 种基线模型进行基准测试，比较了它们在选择错误率、实证覆盖率、被拒绝实例类别分布以及在分布外实例上的性能等多个方面的表现，结果显示没有一个明确的最佳方法，最好的方法取决于用户的目标。

Jan, 2024

少样本神经序列建模的词汇学习

通过引入词汇翻译机制并使用多种词典学习算法来初始化这种机制，可以提高序列建模任务的系统化泛化能力。

Jun, 2021

基于统计模型的主动学习

本文回顾了如何使用最优数据选择技术来优化一些类型的机器学习算法，包括前馈神经网络、高斯混合模型和局部加权回归，并探讨了此方法如何降低训练数据量，提高模型性能。

Mar, 1996

自我评估适配提高 LLMs 的选择性预测能力

基于自评估的自适应选可信度模型，通过使用参数高效调整适应大型语言模型到特定任务，提高其自评估能力，以改善选择性预测性能。在多种问答数据集上的评估结果显示，该方法优于现有的选择预测方法。

Oct, 2023