利用多源数据建立组分布鲁棒预测模型以优化关于目标分布解释方差的对抗性奖励,提高了面对分布偏移的目标群体的预测准确性;该模型是源群体条件结果模型的加权平均,并通过引入偏差校正估计器提高了聚合权重的收敛速度,同时满足一些隐私约束并具有解释不同源数据对于预测给定目标协变量分布的重要性的优点。
Sep, 2023
探讨在机器学习中存在恶意数据时的问题,其中的 list-decodable learning 和 semi-verified learning model 框架及稳健学习算法提供强大的解决方案。
Nov, 2016
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
本文提出了一种基于 EM 算法和众包技术的神经网络训练模型,能够直接从多个标注者的嘈杂标签数据中进行有监督学习,并能够捕捉不同标注者的可靠性和偏见,最终在多个领域获得了新的最优结果。
Sep, 2017
本文提出了一种在深度神经网络分类器中使用有信任子集数据以及基于损失修正技术的方法,大大提高了分类器对标签噪声的鲁棒性。实验结果表明,该方法在视觉和自然语言处理任务中均取得了较好的性能表现。
Feb, 2018
机器学习的数据敏感性和数据不完整性的研究,包括公平表示学习、对不可靠功能进行学习的问题,以及强化学习中的数据不充分覆盖问题。
Dec, 2023
本文从数据、模型、学习三个维度,全面回顾了 13 年来 AI 社区在众包学习领域的进展,着重提出了每个维度的一些有前途的蓝图,并探讨了过去研究的经验教训,旨在为新研究者提供指引,鼓励他们做出新的贡献。
Jun, 2022
针对机器学习算法默认独立采样的局限性,在网络化数据样本学习中,使用了有效的样本加权方案,提高了错误边界,从而使丢弃过多共享信息的方法不再是唯一选择。
May, 2014
通过对多种数据源进行实验,本文显示了四种常见主动学习策略在自然语言推理任务上往往比随机选择无效,因为不确定性策略会获取到集体离群值,即难以学习的实例,这些实例会阻碍学习和泛化。然而,当弃置集体离群值后,策略的有效性得以恢复并且明显优于随机选择。同时,本文发现不同数据源之间的离群值具有不同形式,在不同难度级别的测试数据中不同策略的表现存在差异。
Feb, 2023
整合替代数据对模型训练的测试误差有显著减少作用,所需使用经验风险最小化进行加权至关重要,模型训练中真实与替代数据混合的测试误差可通过标度律预测最优加权及替代数据的利益。
Feb, 2024