不可信来源中的健壮学习

ICMLJan, 2019

Robust Learning from Untrusted Sources

Nikola Konstantinov, Christoph Lampert

TL;DR该研究通过统计学习理论视角研究了机器学习中如何从分布式、众包等外部数据源中进行稳健学习，提出了一种通过自动抑制无关或损坏数据的过程，并通过实验证明其比鲁棒统计和分布式优化的替代方法具有更高的精度和准确性。

Abstract

Modern machine learning methods often require more data for training than a single expert can provide. Therefore, it has become a standard procedure to collect data from external sources, e.g. via crowdsourcing.

machine learning crowdsourcing robust learning distributed data statistical learning theory

发现论文，激发创造

基于多源数据的分布鲁棒机器学习

利用多源数据建立组分布鲁棒预测模型以优化关于目标分布解释方差的对抗性奖励，提高了面对分布偏移的目标群体的预测准确性；该模型是源群体条件结果模型的加权平均，并通过引入偏差校正估计器提高了聚合权重的收敛速度，同时满足一些隐私约束并具有解释不同源数据对于预测给定目标协变量分布的重要性的优点。

Sep, 2023

学习来自不可信数据

探讨在机器学习中存在恶意数据时的问题，其中的 list-decodable learning 和 semi-verified learning model 框架及稳健学习算法提供强大的解决方案。

Nov, 2016

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

使用可信数据训练深度网络处理被严重噪声污染的标签

本文提出了一种在深度神经网络分类器中使用有信任子集数据以及基于损失修正技术的方法，大大提高了分类器对标签噪声的鲁棒性。实验结果表明，该方法在视觉和自然语言处理任务中均取得了较好的性能表现。

Feb, 2018

通过转换和增强不完美的训练数据实现鲁棒机器学习

机器学习的数据敏感性和数据不完整性的研究，包括公平表示学习、对不可靠功能进行学习的问题，以及强化学习中的数据不充分覆盖问题。

Dec, 2023

众包知识学习：简要综述与系统视角

本文从数据、模型、学习三个维度，全面回顾了 13 年来 AI 社区在众包学习领域的进展，着重提出了每个维度的一些有前途的蓝图，并探讨了过去研究的经验教训，旨在为新研究者提供指引，鼓励他们做出新的贡献。

Jun, 2022

从网络化样本中学习

针对机器学习算法默认独立采样的局限性，在网络化数据样本学习中，使用了有效的样本加权方案，提高了错误边界，从而使丢弃过多共享信息的方法不再是唯一选择。

May, 2014

自然语言推理的多源主动学习研究

通过对多种数据源进行实验，本文显示了四种常见主动学习策略在自然语言推理任务上往往比随机选择无效，因为不确定性策略会获取到集体离群值，即难以学习的实例，这些实例会阻碍学习和泛化。然而，当弃置集体离群值后，策略的有效性得以恢复并且明显优于随机选择。同时，本文发现不同数据源之间的离群值具有不同形式，在不同难度级别的测试数据中不同策略的表现存在差异。

Feb, 2023

使用真实数据和替代数据进行学习的规模定律

整合替代数据对模型训练的测试误差有显著减少作用，所需使用经验风险最小化进行加权至关重要，模型训练中真实与替代数据混合的测试误差可通过标度律预测最优加权及替代数据的利益。

Feb, 2024