- 公平 MP-BOOST: 公平可解释的 Minipatch 增强
研究论文介绍了一种名为公平 MP-Boost 的随机增强方案,旨在在保持预测能力的基础上提高公平性和可解释性。通过采用自适应学习特征和观测的方式,该方法平衡了准确性和公平性,并通过最相关的全局学习子集选择重要和公平特征来提高模型的性能。经过 - 基于梯度提升算法的乳腺癌分类,重点减少假阴性并使用 SHAP 解释性
通过使用四种提升算法:AdaBoost、XGBoost、CatBoost 和 LightGBM,研究了乳腺癌的预测和诊断,以及针对召回率、ROC-AUC 和混淆矩阵的最有效度量标准。同时使用 Optuna 进行超参数优化,利用 SHAP 方 - 基于 Boosting 的顺序元树集成构建优化决策树
使用增强学习方法构建多个元树以提高预测性能,防止过度深化的树引起过拟合的问题,并通过实验与单个决策树的集合进行性能比较。
- 通过评估组合性能在构建过程中构建多个决策树的算法框架
本研究提出了一个同时构建决策树并在构建过程中评估它们组合效果的算法框架,通过构建新的决策树组合和评估其组合性能来找到更好的组合。通过在合成和基准数据上进行实验验证了该框架的性能。
- 提升、投票分类器与随机样本压缩方案
通过提出一种随机增强算法,我们构建了一个通用框架,将样本压缩方法扩展到支持基于子采样的随机学习算法,并输出具有单对数依赖性的投票分类器的泛化误差,相比于已知可实现的一般的弱到强学习器,我们的算法在训练样本数量方面具有更好的表现。
- 提升因果增加模型
我们提出了一种基于提升的方法来从观察数据中学习加法结构方程模型 (SEMs),重点研究确定变量之间因果顺序的理论方面。我们引入了一族基于任意回归技术的得分函数,并建立了一些必要条件,以一致地优选真实的因果顺序。我们的分析揭示了提前停止的提升 - 大型语言模型在语音合成中的提升:一项实证研究
本文综合实证研究了如何增强大型语言模型(LLMs)的语音合成能力,比较了三种 LLMs 和语音合成模型(VALL-E)的集成方法,结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能,比原始语音合成模型在讲话者相似度和词错误率(W - EMNLPExpNote: 无需明确任务定义的黑盒大语言模型在经验笔记本的引导下能够更好解决问题
该研究提出了 ExpNote,一种自动化框架,通过从训练数据中反思和记录经验,并在测试期间从外部内存中检索经验,以帮助黑盒大规模语言模型更好地适应陌生任务,从而显著提高性能。
- PREFER: 通过反馈 - 反思 - 优化进行提示集成学习
通过反馈 - 反思 - 完善的 PREFER 方法,我们提出了一种简单、通用、自动的方法来改进大型语言模型的性能,通过无监督生成新的提示来解决现有方法中存在的问题,并通过前向和后向思考的新型提示集成方法提高性能评估的稳定性。
- 解读分析计算在 AdaBoost 编码中的失效
AdaBoost 不是真正的优化算法,而是一种将多个弱分类器组合成强分类器的方法,它的结果可以通过真值表进行明确计算。本研究以两个类别的问题为例,以三个二元分类器为例,与 Python 库 scikit-learn 中的 AdaBoost - 多类别提升:简单直观的弱学习准则
将增强学习推广到多类别情景中,引入了适用于多类别分类的弱学习条件,提出了一种简单高效的增强学习算法,并在列表式 PAC 学习的背景下应用其新的增强技术,证明了其可行性和可靠性。
- KDD弱监督学习的本地提升
本文提出了一种名为 LocalBoost 的弱监督增强框架,从两个维度(即源内和源间)迭代地增强集成模型,进而在七个数据集上达到了优于基准 boosting 方法和其他弱监督方法的表现。
- ConvBoost: 提升用于传感器活动识别的卷积神经网络
本文提出了 ConvBoost 框架,它是一种基于卷积神经网络的人体活动识别的结构模型,通过增加三种不同的数据增强模式,来解决训练样本不足的问题,从而对现有的卷积神经网络模型进行提升。在三个标准基准数据集上得到了显著的性能提升。
- CVPR在部分标注的多标签分类中弥合模型解释之间的差距
研究表明,在多标签分类领域中,将未观察到的标签假定为负标签会引入标签噪声,因此提议通过提高部分标记训练的模型的属性分数以改善其性能,并在三个不同数据集上进行测试。
- AdaCC: 累积代价敏感增强学习用于不平衡分类
本文提出了一种新的成本敏感的提升方法 AdaCC,该方法不依赖于固定的错误分类成本矩阵,而是根据模型性能动态调整误分类成本,优于 12 种现有方法,在 27 个真实世界数据集上实现了稳定的改进。
- FedGBF: 一种基于梯度提升和 Bagging 的有效垂直联邦学习框架
研究提出了一种名为 Federated Gradient Boosting Forest (FedGBF) 的模型,它能够同时并行地建立决策树作为提升的基础学习器,提高性能并减少时间成本,同时还提出了一种动态更新参数的方法减少复杂度,并在基 - Boosted Dense Retriever
提出了一种名为 DrBoost 的密集检索集成算法,采用逐步训练的方式进行,具有相比标准密集检索模型更紧凑且性能相当的优势,尤其在粗量化下具有出乎意料的表现,可以通过降低延迟和带宽需求,实现更便宜的部署。
- CVPR多尺度增强除雾网络与密集特征融合
本文介绍了一种基于 U-Net 架构的多尺度提升去雾网络,包含了稠密特征融合、 Strengthen-Operate-Subtract 策略等内容,实验表明该方法在公开数据集和实际雾霾图像上表现优异。
- 量子提升
本文研究了一种利用量子技术改进 AdaBoost 算法,实现在 Boolean 概念类中比传统算法具有二次量子改进的时间复杂度,为弱学习算法提供了新思路。
- 一种精确的用于提升和最小 -ℓ-1 - 范数插值分类器的高维渐近理论
本文建立了一个精确的高维渐近理论,探讨了分离数据上的 Boosting 的统计和计算方法。在考虑特征(弱学习器)数量 $p$ 与样本大小 $n$ 比例过大的高维情况下,提供了一种统计模型的确切分析,探讨了 Boosting 在插值训练数据并