- 多次校准后处理的必要性?
该研究是第一项全面评估选定模型的多校准后处理在广泛标签、图像和语言数据集上的实用性,并总结了:(1)开箱即用的模型往往相对多校准且无需额外的后处理;(2)多校准后处理可以改善本质上无法校准的模型;(3)传统的校准度量有时会隐含地提供多校准度 - COLINGextit {Tokenization and the Noiseless Channel}》两个反例
通过分析两种变体的 BPE 分词方法,本研究揭示了用 Rényi 效能作为分词度量指标的局限性,为构建更准确的预测器提供了启示。
- Bayes-xG: 使用贝叶斯分层方法对期望进球(xG)进行球员和位置校正
使用贝叶斯方法研究选手或位置因素对预测进球概率的影响,并发现了位置和选手效应对预测进球概率的影响,同时也评估了先验分布选择对结果的影响。
- 自动测量失语症患者的语言流利度:使用读语音数据的首次成就
自动测量语言流畅度的信号处理算法对阅读病人的言语流畅度进行评估,有效且经济的工具。
- 使用随机效应机器学习算法识别抑郁易感性
通过使用机器学习方法来确定可以最好地识别处于抑郁症高风险亚组的变量,本研究阐明了重复效应 / 期望最大化(RE-EM)树和混合效应随机森林(MERF)等数据驱动的机器学习(ML)方法可靠性地预测未来和现在的抑郁症状,并已确定哀愁、负性生活事 - 不公平的公共设施及改善的首要步骤
该研究提出了一种新的公平性框架,不再局限于政策或预测器的选择,而是考虑政策正在优化的效用,定义了信息价值公平性,并建议不使用不满足此标准的效用。研究描述了如何修改效用以满足这种公平标准,并讨论了这可能对相应最优政策产生的影响。
- 在线度量算法的混合预测
本文阐述了一种基于多种算法或预测器的学习增强在线算法技术,通过针对在线问题的分析,设计出与动态组合相竞争的算法,能够在多种预测器之间切换,具有灵活性和实用性。
- ICML有效学习预测人类能力的辅助模型
这篇论文介绍了在专家推迟决策的场景下,利用学习算法提高决策准确性的方法,通过分析一系列代理损失函数的理论性质,设计并使用最小量的数据训练出高效准确的决策系统。
- 发现缺失的不变原则 —— 不变风险最小化的互逆孪生
在机器学习中,我们常常希望训练的预测模型可以尽量地具有一致性,以在不同基础上具有良好的预测效果。然而过去的一些技术在解决该问题时会存在局限性。近期,一些学者新提出了一种基于一致性原则的新技术,即 MRI-v1,该技术在多种不同场景下表现良好 - 广义数据上,具有二次限制的随机线性优化从不过拟合
本文针对线性预测器的迭代定点方法(特别是随机和批量镜像下降法及随机时间差分学习),提供了测试误差界限。主要贡献包括:通过单一证明技巧对收敛和非收敛状态下具有高概率保证的拟合损失进行统一处理,以无需投影、正则化或任何等效手段,适用于具有二次界 - 机器学习和统计方法在卒中患者住院时间预测中的文献综述
该研究回顾了机器学习和统计方法在预测中风病人住院时间方面的研究,分析了目前研究领域中存在的一些矛盾之处,需要进一步研究了解中风患者住院时间的预测因素。
- ICCVFOX-NAS: 快速、设备本地且可解释的神经架构搜索
FOX-NAS 提出了一种基于模拟退火和多元回归的快速可解释性的预测方法,能较高效地量化并在边缘部署,实验结果显示 FOX-NAS 模型的性能优于其他流行的神经网络架构,获得了 2020 年低功耗计算机视觉挑战赛 (DSP 分类) 第三名。
- 现代机器学习中的欠规范性对可信度的挑战
本文发现欠规范是 ML 模型在实际领域应用中展现出意外糟糕行为的一个重要原因。作者使用计算机视觉、医学成像、自然语言处理、基于电子健康记录的临床风险预测以及医学遗传学的示例来证明在实践中出现的问题。因此,本文的结果表明需要在任何领域中的建模 - ICML学习推迟专家意见的一致估计值
本文探讨了如何学习可以预测或选择推迟下游专家决策的预测器。我们提出了一种基于学习分类器和拒绝器的过程,并理论分析了其效果。该方法基于一种新颖的成本敏感学习算法,我们给出了一种一致的代理损失函数。本文还通过各种实验验证了我们方法的有效性。
- ACL自然语言处理任务性能预测
本文提出了一种使用回归模型来预测 NLP 实验评估分数的方法,并证明了这种方法可以有效地预测 NLP 实验结果。同时,作者还提出这种方法可以用来确定实验的子集,以获得对所有实验设置的合理预测。
- 从权重预测神经网络的准确性
本研究证明了只通过观察神经网络的权重,而不必评估其输入数据,就能惊人地预测其准确性。通过使用简单的权重统计信息,预测器能够非常准确地排名神经网络的性能,并能对不同数据集和架构训练的网络进行排名。我们发布了一个包含 120k 个卷积神经网络的 - 稳定的变量选择和回归
通过调整回归分析中的稳定和不稳定预测来考虑不同实验或环境的分布变化,引入了稳定回归分析的方法,使之前未见过的环境下的回归能力得到优化,应用于系统生物学研究中的假设生成并与因果模型建立理论关联,给出了优化的稳定点,并证明了在该点回归预测模型的 - 机器学习中促进公平的干预措施比较研究
本篇研究通过开发公开基准来对不同的公平性增强算法进行比较,并发现许多公平性措施之间具有强烈的相关性,但这些措施也对数据集构成的波动敏感,这表明公平干预可能比以前认为的更脆弱。
- EMNLPSGNMT -- 一个灵活的 NMT 解码平台,用于快速原型制作新的模型和搜索策略
介绍了 SGNMT 平台,它提供了一种与神经和符号打分模块的通用接口,可以与各种打分和约束方式组合,实现了多种遍历搜索策略,并易于添加新的打分模块或解码策略,可用于机器翻译研究的快速实验。
- 从数据到决策:分布鲁棒优化是最优的
本文研究随机程序的优化问题,其中决策者不能观察到外生不确定性的分布,但可以访问此分布的有限样本。作者提出了一种元优化问题来找到最不保守的预测器和处方器,以及遵守它们的样本外失望约束。利用大偏差理论的工具,作者证明了该元优化问题有唯一解。最佳