使用可信元素进行训练集调试
本文提出了一种在深度神经网络分类器中使用有信任子集数据以及基于损失修正技术的方法,大大提高了分类器对标签噪声的鲁棒性。实验结果表明,该方法在视觉和自然语言处理任务中均取得了较好的性能表现。
Feb, 2018
通过可交互的证明助手,开发者能够证明机器学习系统的正确性,这种方法暴露了所有的实现错误,并通过 Certigrad 实现了优化的随机计算图,并生成了一个机器可验证的证明,证明了系统采样的梯度是数学梯度的无偏估计方法。
Jun, 2017
BugLab 是一种基于机器学习的、自监督学习为主的程序分析方法,通过两个模型共同训练,可以有效地发现和修复代码中的错误,提高了 2374 个真实缺陷数据集的检测和修复准确度,同时发现了 19 个以前未知的错误。
May, 2021
利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题,并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性,对于高比例的标记错误的现实世界数据集,低容量的模型可能比高容量的模型更实用。
Mar, 2021
本文介绍了一种新的自我监督探测方法,该方法能够检查和减轻训练模型的过度置信问题,从而提高其可信度。此方法在信任相关任务 (误分类检测、校准和超出分布检测) 中得到了广泛验证和应用。
Feb, 2023
利用现有样本池,从可配置的难度方面生成基准,通过使用具有不同特征的不太准确的次级模型,针对正在评估的更复杂目标模型,有效地生成基准,以期改善恶意软件检测准确性。
Dec, 2023
机器学习在医学疾病诊断这一关键应用领域存在一个有效性问题,当训练数据中的目标标签通过间接测量确定时,若基础测量数据包括在输入数据表示中,则机器学习模型只会学会复原已知目标定义,导致模型在与其类似的测试数据上表现完美,但在现实世界中,当定义的基础测量无法完全获取时,模型将在可接近灾难的程度上失败。我们提出了一个通用的流程用于识别存在问题的数据集和黑盒机器学习模型,并将我们的检测流程应用于败血症早期预测任务。
Nov, 2023
该研究通过统计学习理论视角研究了机器学习中如何从分布式、众包等外部数据源中进行稳健学习,提出了一种通过自动抑制无关或损坏数据的过程, 并通过实验证明其比鲁棒统计和分布式优化的替代方法具有更高的精度和准确性。
Jan, 2019
探讨在机器学习中存在恶意数据时的问题,其中的 list-decodable learning 和 semi-verified learning model 框架及稳健学习算法提供强大的解决方案。
Nov, 2016
研究了如何在多个角度上面对数据污染攻击实现强大的鲁棒性保证和提供可靠的预测,同时提供算法计算文本类问题的区间,并针对线性分离器提供了真正的多项式时间算法。
Mar, 2022