- 程序合成的遗传算法
利用进化计算方法改善演绎程序合成工具 SuSLik 的搜索策略,以加速正确程序的推导,交叉验证结果显示改进后的方法可泛化应用于未预见的问题。
- 高斯过程模型可扩展的交叉验证损失
通过交叉验证和最近邻截断,我们引入了一种简单可扩展的高斯过程模型训练方法,并采用泊松伽玛辅助变量和变分推断来适应二元和多元分类,通过与其他方法的比较,我们发现我们的方法提供了快速训练和出色的预测性能,这可以归因于预测分布的非参数性质和交叉验 - EMNLP最好的更好吗? 自然语言处理的贝叶斯统计模型比较
使用 k 倍交叉验证的贝叶斯统计模型比较技术,对六种英文词性标注器在两个数据集和三个评估指标下的排名进行估计。
- 测试误差的交叉验证置信区间
研究了交叉验证的中心极限定理和渐近方差一致估计,为 $k$ 折测试错误的可实现渐近精确置信区间和有效的假设测试提供了理论框架,并且在真实数据实验中表现优异。
- 具有有效和自适应覆盖范围的分类
本文提出了新型一致性得分,结合适用于分类问题的定制化 Conformal inference、交叉验证、Jackknife 等方法,在保证边际覆盖率的前提下,也可以应对复杂的数据分布,其在合成数据和真实数据上获得实际价值和统计优势。
- 近似交叉验证:模型评价和选择的保证
通过单个牛顿推的启动程序,实现了对大量训练数据集的 CV 的近似,解决了 CV 运行时间长的问题;本文提供了一致的非渐进性,确定性的模型评估保证,同时也保证了与 CV 相当的模型选择性能。
- ICLR岭回归:结构、交叉验证和草图
本文研究岭回归的三个基本问题:估计器结构、正确使用交叉验证选择正则化参数以及如何在不损失过多精度的情况下加速计算。我们在一个统一的大数据线性模型下考虑了这三个问题。通过将岭回归精确表示为真实参数和噪声的协方差矩阵相关的线性组合,我们研究了 - 边际似然和交叉验证
本文针对 Bayesian 统计推断中模型拟合的评估方法,提出了一种新思路,即把边缘似然与采用信息熵对数作为评分规则的对于所有大小为 p 的测试数据集迭代得出的穷举式的 leave-p-out 交叉验证等效形式,并探讨了边缘似然对先验选择敏 - 利用带噪标签训练的深度神经网络及其应用
本文针对网络训练时噪声标签的问题,提出了一种基于交叉验证和合作训练策略的解决方法,成功提高了深度神经网络在合成和实际噪音数据集下的泛化性能。
- 机器学习中的模型评估、模型选择和算法选择
本文综述了机器学习中模型评估、模型选择和算法选择等三个子任务的不同技术,并讨论了每种技术的主要优缺点,给出了推荐实践建议。重点介绍了常见的模型评估和选择技术,如保留集方法和交叉验证技术,并给出了实用技巧。同时提出了多种算法比较策略,包括 5 - 低复杂度交叉验证线性收缩协方差矩阵估计
本文研究线性收缩估计器的参数选择,并提出了数据驱动的交叉验证方法,用于自动选择收缩系数,以最小化估计误差的弗罗贝尼乌斯范数。该方法不仅适用于使用样本协方差矩阵和多种典型收缩目标的收缩设计,还可用于使用一般收缩目标,多个目标和 / 或基于最小 - 有符号网络中的平衡性
该研究在 Signed Networks 领域提出了两种基于弱平衡和强平衡的平衡度量,用于比较实际 Signed Networks 与理论建模的差异,并测试了使用平衡度量进行预测未知符号的能力。研究表明,这些度量能够较好地预测未知符号。
- 瑞士军刀无穷小千斤顶
本文提出了一种称为 “无穷小套索” 的线性逼近方法,用于评估机器学习算法的误差,可以取代数据加权的反复拟合,适用于大数据集。该方法的理论适用于各种随机或确定性的数据和权重,可以广泛应用于机器学习领域,特别是在自动分化方面。
- N-GrAM:新的格罗宁根作者分类模型
文章描述了我们参加 PAN 2017 的作者识别竞赛,其中我们使用支持向量机作为算法进行性别和语言变量的识别。最终的结果表明,我们使用交叉验证的方法,成功地将算法的平均准确率提高到了 0.86,证明了算法的有效性。
- 交叉验证失败:小样本导致大误差
通过交叉验证误差条的实验结果,揭示了采用预测模型 (例如生物标志物或方法开发) 进行认知神经影像研究时,由于样本数导致的误差范围大约为 ±10%,并且这种误差经常被低估,而且常常会削弱研究结论的可靠性。因此,需要探索扩大样本量的解决方案,并 - HASYv2 数据集
本文介绍了 HASYv2 数据集,它是一个类似于 MNIST 的免费公开数据集,包含了 369 个类别的 168233 个单个符号实例,并且包含有分类和验证两个挑战。
- 贝叶斯分层建模统计比较分类器
本研究提出了一种贝叶斯分层模型,通过对多个数据集上两个分类器的交叉验证结果进行联合分析,从而返回两个分类器准确度在实际上是否等价或显著不同的后验概率,并减少了估计误差。
- IJCAI增量学习的快速交叉验证
本文提出了一种通用的基于增量学习算法的交叉验证 (Cross-validation) 的性能估计方法,并通过实验表明其在减少计算负担,以及对数据规模扩展和分布式实现上均具有良好的性能。
- ICML可逆学习的基于梯度的超参数优化
本文介绍了如何通过逆向随机梯度下降的动态过程精确计算出所有超参数的交叉验证性能梯度,并优化上千个超参数,包括学习速率、动量方案、权重初始化分布,多参数正则化方案和神经网络架构。
- 基于贝叶斯的留一法交叉验证近似方法应用于高斯潜变量模型
本文主要研究了 Bayesian model 的 Bayesian cross-validation 技术在高斯潜在变量模型中的应用,通过 Laplace method 或 expectation propagation 方法来估计与推断,