机器学习学术研究中令人担忧的趋势
通过研究高度引用的机器学习论文,本文发现只有少数论文能够说明其与社会需要的联系,而且更少讨论负面潜力。同时,本文还发现,机器学习研究中经常突出强调的几个价值观,如性能、泛化、量化证据、效率、建立在过去的工作基础之上和创新性等,往往在支持权力集中方面存在着假设和影响。最后,作者发现高度引用的论文越来越多地与科技公司和精英大学有着紧密的联系。
Jun, 2021
本研究深入研究了机器学习研究演变的动态景观,利用隐狄利克雷分配方法识别了在机器学习领域中出现的关键主题和基本概念,通过综合分析追踪了这些主题的演化轨迹,并利用 Kullback-Leibler 散度度量方法量化研究贡献的新颖性和多样性,从而了解杰出研究人员的关键作用以及机器学习领域特定学术场所的重要性。
Nov, 2023
通过对高被引机器学习论文进行综合评析,我们揭示了机器学习领域内最有影响力的论文、高被引作者以及合作网络。我们还发现了热门研究主题和最新受到关注的新兴话题,并对高被引论文的地理分布进行了分析,突显了某些国家在机器学习研究中的主导地位。通过为研究人员、政策制定者和实践者提供关于这一快速发展领域的主要进展和趋势的有价值的见解,我们的研究为它们提供了有价值的洞察。
Aug, 2023
我们警告人们对机器学习领域的经验研究常常存在着一种不完整的理解,这导致实验结果不可复制、发现不可靠,进而威胁到该领域的进展。为了克服这种令人担忧的情况,我们呼吁更多地意识到获得知识的多样性方式以及一些认识论上的限制。特别是,我们认为当前大部分经验机器学习研究实质上是确认性研究,而应该视为探索性研究。
May, 2024
通过研究机器学习中的数据泄露和出版偏见等因素,本研究提出了一种新颖的随机模型来估计真实准确性,并纠正了过度乐观的诊断结果,从而提供了更真实的机器学习性能评估。
May, 2024
本研究从算法设计到数据收集到模型评估的全过程,引起注意常见陷阱,并提供实用建议以改进机器学习,通过案例研究强调这些缺陷在实践中如何发生以及在哪里可以进行改进。
Nov, 2020
本文综述了近年来人工神经网络和机器学习领域所取得的进展和对于成功和微妙性的理解,通过数值实验和简化模型的分析,以及严谨的数学结果,讨论对于这个快速发展领域最重要的开放性问题。
Sep, 2020
通过调查 ML 方法在 17 个领域中被广泛采用的文献,我们系统地调查了 ML 方法在科学研究中的可重复性问题,并发现数据泄漏确实是一个普遍存在的问题,并提出了模型信息表来报告基于 ML 模型的科学主张,以便在发布前发现泄漏情况,并进行了模拟实验,发现所有声称复杂的 ML 模型在文献中都未能复制,并且与几十年前的 Logistic 回归模型相比,复杂的 ML 模型并没有表现出更好的效果。
Jul, 2022
本文研究了在社交计算领域,针对 Twitter 数据执行 ML 分类任务,是否具有遵循模板的最佳实践方法,结果显示,大多数人都没有遵循规则,从而导致数据不可靠。
Dec, 2019