两只长尾的故事

ICMLJul, 2021

A Tale Of Two Long Tails

Daniel D'souza, Zach Nussbaum, Chirag Agarwal, Sara Hooker

TL;DR研究机器学习模型中的不确定性，提出有针对性的数据增强方法以设计出对应不同不确定性来源的干预，结果表明，噪声数据和典型数据的学习率在引入额外信息后存在显著差异。

Abstract

As machine learning models are increasingly employed to assist human decision-makers, it becomes critical to communicate the uncertainty associated with these model predictions. However, the majority of work on <

uncertainty machine learning targeted intervention data augmentation noisy examples

发现论文，激发创造

机器学习中的不确定性来源 -- 统计学家的视角

探讨机器学习和统计学中难以避免的不确定性问题，区分概率和信息性不确定性，并分析数据对这些不确定性的影响。

May, 2023

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

机器学习中的不确定性估计

本文研究基于统计学习理论的机器学习方法中的不确定性问题，并深入探讨了在回归分析中评估模型系数和输出特征值预测中的不确定度。另外，针对机器学习中的模型复杂度和严重非线性等问题提出解决方案，并指出决策制定时需要对机器学习模型和预测进行不确定性评估、风险评估的需求，并提供使用非参数技术解决不确定性问题的方法及最新的超级计算机设备供进行高强度计算。

Jun, 2022

对抗环境下模型不确定性的局限性

研究机器学习模型中的对抗样本和贝叶斯神经网络的不确定性测量，并发现置信度和不确定性可能是无可疑的，即使输出是错误的；同时，对大多数任务，我们在影响不确定性和置信度方面发现微妙的差异。

Dec, 2018

机器学习与深度学习中不确定性的文献综述

该研究综述了机器学习中不确定性的来源、分类和度量方法，并讨论了不确定性对决策过程的影响。重点关注深度学习领域，提供了广泛范围的不确定性讨论和深度学习中的不确定性量化方法的最新综述。

Jun, 2024

不确定性中寻求合适的平衡

利用贝叶斯不确定性估计解决类别不平衡学习的问题，并且成功改进了面部验证、属性预测、数字 / 物体识别、皮肤病检测等六个基准数据集上的分类性能。

Jan, 2019

估算和解释分类器不确定性的元启发式方法

针对机器学习模型影响采纳的关键因素之一 —— 信任，本研究提出了一组特征量，可以表征一个实例的复杂程度，并借助元学习框架评估误分类的风险。该框架在提高模型开发的复杂性方面具有潜在的应用前景，同时提供新的模型自我阻抗和解释手段。

Apr, 2023

表征代理校准及消除标注员和数据偏差的不确定性来源

本文提出了一种简单的 Monte Carlo Dropout 算法，可以显式地量化神经网络输出的不确定性，利用此种不确定性可以解释模型复杂现象、如情感识别，此外也可以用于辨别主观标记样本和数据偏差的问题。

Sep, 2019

文件分类中的不确定性缓解

本篇论文提出了一种基于神经网络和新型 dropout - 熵测量方法的模型以及基于特征表示的度量学习方法，可以更精确地预测，提高分类器的预测准确性，尤其在医学诊断等需要确定不确定预测的领域有广泛的应用。

Jul, 2019

超越置信度：可靠的模型应该考虑到非典型性

本论文研究了机器学习模型的可靠性问题，发现输入信息的典型性与模型预测的准确性和过度自信程度有关，提出使用输入信息的典型性来改进模型的性能和不确定性估计。通过案例研究，展示了该方法可以在不获取群组属性的情况下提高人类皮肤病变分类器在不同肤色群体中的性能。

May, 2023