最好的更好吗？自然语言处理的贝叶斯统计模型比较

EMNLPOct, 2020

最好的更好吗？自然语言处理的贝叶斯统计模型比较

Is the Best Better? Bayesian Statistical Model Comparison for Natural Language Processing

Piotr Szymański, Kyle Gorman

TL;DR使用 k 倍交叉验证的贝叶斯统计模型比较技术，对六种英文词性标注器在两个数据集和三个评估指标下的排名进行估计。

Abstract

Recent work raises concerns about the use of standard splits to compare natural language processing models. We propose a bayesian statistical model comparison technique which uses k-fold →

bayesian statistical model cross-validation natural language processing models part-of-speech taggers data sets

发现论文，激发创造

深度学习方法开发在计算生物学中的机遇

分子技术的进展推动了与生物学和生物医学相关的数据集的巨大增长。这些进展与机器学习中的深度学习子领域相似。可微分编程工具箱中的组件使深度学习成为可能，使计算机科学家能够用灵活和有效的工具解决越来越多的问题。然而，这些工具中许多尚未充分应用于计算生物学和生物信息学领域。在这个观点中，我们对其中一些进展进行了调查，并强调它们在生命科学中的应用，以增加从业人员对将专业知识与新兴的深度学习架构工具相结合的新机遇的认识。

Jun, 2024

分布偏差对留一交叉验证的影响

通过研究我们发现，在机器学习模型的性能评估中，交叉验证方法会引入分布偏差现象，导致性能评估及超参数优化受到负面影响。为了解决这个问题，我们提出了一个通用的校正分布偏差的交叉验证方法，并通过合成模拟和多个已发布的实验验证结果。

Jun, 2024

交叉验证的离策略评估

本文研究了离策略评估中的估计器选择和超参数调优问题，并展示了如何使用交叉验证来解决这一问题，从而验证了交叉验证在离策略评估中是可行的。

May, 2024

不要浪费时间：早停止交叉验证

使用早停法进行交叉验证的模型选择，可以更高效地收敛，涵盖更多搜索空间，并实现更好的性能。

May, 2024

人工智能医学数据集术语：历史回顾与建议

医学和人工智能工程代表了两个不同的领域，每个领域都有数十年的出版历史。两个有重叠术语的不同领域合作时，可能会出现沟通不畅和误解。本文通过考察历史文献，包括文章、写作指南和教材，追溯数据集术语的分歧演化及其影响。通过明确这些数据集的准确和标准化描述，可以展示人工智能应用在医学中的健壮性和普适性。本文还识别了常被误解的术语，并提出了解决方案以减少术语混淆。为了提高医学人工智能中的沟通准确性，本综述旨在促进这个交叉学科领域更有效和透明的研究方法。

Apr, 2024

利用对抗验证量化地理空间机器学习预测的差异性

通过对地理空间机器学习预测结果和样本数据之间的差异度进行量化，在 0 到 100% 的区间内，基于对抗验证的方法可以准确度量差异度。此方法在合成和真实的数据集上测试，并逐渐增加差异度来研究其效果和普适性。测试结果表明该方法可以成功地量化整个数值范围内的差异度，并揭示出在地理空间机器学习预测中考虑特征空间差异度的重要性，以便选择更适合的交叉验证方法进行预测评估。

Apr, 2024

基于实证方法的点尺度土壤湿度测量的空间模拟和卫星反演评估

基于融合时空信息与机器学习的方法，将点尺度的土壤湿度（SM）测量从 28 个点位上采样到 100 米的分辨率，实现了较为公平和统计学上更可靠的比较评估，并在交叉验证的基础上验证了该方法对未覆盖点位的区域的湿度空间变化的映射能力。

Apr, 2024

形式背景的仓库

该研究分析了现有 FCA 数据集传播的情况，提出了建立一个中心 FCA 数据存储库的要求，并强调了此举面临的挑战。

Apr, 2024

DOCMASTER：文档问答中的注释、训练和推理的统一平台

该研究论文介绍了针对 PDF 文档的 DOCMASTER 统一平台，用于注释 PDF 文档、模型训练和推断，并支持隐私保护，可用于自然语言处理模型应用于 PDF 文档的训练和相关研究。

Mar, 2024

临床机器学习中多源交叉验证的实证研究

在这项研究中，我们对多源数据环境下的标准 K 折交叉验证和留源交叉验证方法进行了系统的实证评估，考虑了基于心电图的心血管疾病分类任务，并将 PhysioNet CinC Challenge 2021 和山东省医院的公开可用数据集进行了整合和协调。我们的结果表明，无论是单一源数据还是多源数据上的 K 折交叉验证都会在目标是推广到新的数据源时系统地高估预测性能。留源交叉验证提供了更可靠的性能估计，具有接近零的偏差但较大的可变性。这种评估凸显了关于在医学数据上获取具有误导性的交叉验证结果的危害，并展示了在拥有多源数据的情况下如何减轻这些问题。

Mar, 2024

最好的更好吗？ 自然语言处理的贝叶斯统计模型比较

最好的更好吗？自然语言处理的贝叶斯统计模型比较