- 具有影响力的 AI 代理
我们针对当前 AI 代理人基准和评估实践的不足进行了分析,着重关注了精确度以外的其他指标,通过联合优化精确度和成本,设计和实施了一个新的优化方法,减少了成本并保持了精确度,并提出了一套有效避免过拟合的原则,同时指出了在评估实践中缺乏标准化的 - ACES: 用于事件流数据的自动群体提取系统
利用自动队列提取系统(ACES)提高医疗领域机器学习的研究可重复性,降低 ML 任务定义门槛,并改善电子健康记录数据集的研究互动方式。
- 用大型经验研究代替人类法官?跨 20 个 NLP 评估任务
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型, - 机器学习研究中的可重复性:概述、障碍和推动因素
我们讨论了机器学习驱动研究的可重复性问题,包括了障碍和驱动因素,旨在为决策制定提供有关采用不同解决方案支持机器学习可重复性的见解和贡献。
- 语言与视觉助手在视觉环境下的高效自然语言理解:阅读和推理中哪些是重要的
通过识别关键组件和创建具有受限推理成本的高效模型,重新定义了视觉语言模型的设计,以实现推理吞吐量的显著提高,并保持高性能。
- OLMES:语言模型评估的标准
AI 领域中,评估语言模型的性能往往会因为任务评估方法的微小改变导致结果巨大的变化,由于缺乏共同的标准设置,不同模型在相同任务上的评估方法不同,对模型性能最佳的声称难以重现。本论文提出了 OLMES,一种完全记录且实用的、可以重现 LLM - 应对再现性危机:验证认证鲁棒性的案例研究
本文通过案例研究验证了复现性危机对对抗性鲁棒性研究的影响,提出了解决方案,强调了合作和标准化努力的必要性,并倡导了确保研究结果可靠和有效的最佳实践。
- 语言模型可复现评估的实践经验
在 NLP 中,评估语言模型的有效性仍然是一个开放性挑战。本文通过三年的经验总结提供了对评估语言模型的指导和教训,并介绍了用于独立、可重现和可扩展评估语言模型的开源库。
- TinyLLaVA Factory:小规模大型多模态模型的模块化代码库
TinyLLaVA Factory 是一个开源的模块化代码库,专注于简洁易用的实现、可扩展性和训练结果的可重现性,旨在帮助研究人员和实践者在小规模大型多模元模型(LMMs)的设计和训练方面探索广阔领域并利用有限的计算资源。
- 多语种实体链接基于密集检索
实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统,证明了即使资源有限,也可以构建在多种语言中运作的竞争性神经网络实体链接系统,从而使实体链接更容易接近。
- 实时物体检测模型的复制研究和基准测试
本研究旨在检验实时目标检测模型的可重复性和基准测试。通过比较大量的目标检测模型在多个显卡上的精度和推理速度,我们还重现了 DETR、RTMDet、ViTDet 和 YOLOv7 等模型,并提出了一个统一的训练和评估流程,以更好地比较模型。然 - 引用是否能反映一篇论文的可重复性?机器学习论文案例研究
使用下游引文语境作为可再现性的信号进行情感分析,以解释机器学习复现挑战中复现尝试的积极或消极结果。
- COLINGReproHum #0087-01: 生成事实检查解释的人工评估复现报告
这篇论文通过 ReproHum 元素,部分复现了 Anatanasova 等人(2020)的《生成事实检查解释》。在 ReproNLP 共同任务中,本共享任务旨在研究 NLP 作为一个领域在时间上变得更加可复现的程度。通过根据任务组织者和原 - OpenELM: 一种高效的开源训练和推理框架的语言模型家族
OpenELM 是一种最新的开放语言模型,通过使用层内参数分配策略,在拥有约十亿参数的情况下,在比 OLMo 少两倍的预训练标记情况下,提高了 2.36% 的准确性,进而促进了开放研究社区的发展。
- 基于 Bauplan 和 Nessie 的可重现数据湖数据科学:可回放数据流水线
介绍了在面临数据湖中数据工作负载可重现性的挑战时,Bauplan 在解决此问题方面的最新进展,通过将计算与数据管理解耦,并利用具有 Git 语义的开源目录 Nessie 以及云运行时,展示了系统提供时间旅行和分支语义以及通过少数 CLI 命 - 使用稀疏表示方法进行仪器光谱响应函数的飞行实时估计
通过稀疏表示字典中的原子实现的新的仪器光谱响应函数 (ISRF) 估计方法在不同的高分辨率光谱仪上应用,评估其对多个遥感任务的可复制性,并与常用的参数模型进行竞争比较,结果显示其标准化 ISRF 估计误差小于 1%。
- 关于大型语言模型(LLMs)的局限性:虚假归因
对大型语言模型的一项重要限制 - 错误归因进行了研究,提出了一种新的幻觉度量指标 - 简单幻觉指数(SHI)。通过评估三个开放领先模型在零样本设置下的能力,特别是对较小文本块的自动作者归属任务,为验证其他模型提供了数据和代码。
- 图像恢复的增强 - multi-attention 方法
我们提出了 Diverse Restormer(DART),一种新颖的图像修复方法,通过有效地整合来自各种来源(长序列、局部和全局区域、特征维度和位置维度)的信息,解决了修复挑战。我们的方法利用了 Transformer 模型在图像修复方面 - 使用风格迁移减轻 fMRI 结果中的分析变异
通过使用不同的生成模型,包括扩散模型(DM),将不同功能性磁共振成像(fMRI)管道生成的统计图转换,我们提出了一种新的方法来提高神经影像学结果的可重复性。利用 DM 和无监督的多域图像之间的转换框架,我们通过一个辅助分类器的潜在空间来限制 - ICLR多彩剪纸:用课程学习增强图像数据增强
本文研究了数据增强方法在深度学习模型训练中的应用,提出了基于课程学习的图像数据增强方法 colorful cutout,并通过实验结果展示了其在图像数据增强中的效果,为了提高研究的可复现性,我们公开发布了源代码。