- LogEval:一套用于大型语言模型在日志分析领域的全面基准套件
在 AI 运维领域中,对于保证信息系统有序和稳定运行,日志分析至关重要。然而,现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此,我们引入了 LogEval,这是一个综合性基准套件,旨在首次评估大语言模型在不同日志分析任务中的能力。 - TSI-Bench: 时间序列插值基准测试
时间序列插补是时间序列分析的重要预处理步骤,然而缺乏标准化和全面的基准平台来评估不同设置下的插补性能,因此我们开发了 TSI-Bench,这是第一个利用深度学习技术来进行时间序列插补评估的综合基准套件,通过标准化实验设置并研究领域适用的缺失 - 量化语言模型的泛化能力评估:基准、分析与工具箱
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
- 风格过时:关于 LLMs 和代码风格转移的不如意经历
代码风格转换是困难的,但是我们研究发现,尽管语言模型在文本转换方面取得了成功,它们在需要代码理解的任务上表现不佳。我们提供了大规模语料库,以帮助社区构建更好的代码模型。
- RRLS:强化学习套件
我们引入了 RRLS(Robust Reinforcement Learning Suite),这是一款基于 Mujoco 环境的基准套件,为训练和评估提供了六个连续控制任务,旨在标准化强化学习任务,促进可重现和可比较的实验,并为最新的最先 - ACCORD: 缩小常识可测性差距
通过受控的多跳反事实,我们提出了一个框架和基准套件 $ exttt {ACCORD}$,用于解开大规模语言模型(LLMs)的常识基础和推理能力。通过引入形式化元素到常识推理中,$ exttt {ACCORD}$ 可以明确控制和量化推理复杂性 - 自主驾驶中鸟瞰视图感知鲁棒性的基准测试和改进
通过设计评估鲁棒性的 RoboBEV 基准套件,我们评估了包括检测、地图分割、深度估计和占用预测在内的 33 种 BEV 感知模型的性能,并观察到在分布内数据表现良好的模型对分布外挑战具有鲁棒性,同时也强调了预训练和无深度 BEV 变换等策 - EDALearn: 面向 EDA 研究的全面 RTL 到最终工艺工具(Signoff EDA)的性能基准测试
机器学习在电子设计自动化(EDA)和大规模集成电路(VLSI)设计中的应用引起了大量研究关注,本研究介绍了 EDALearn,一个综合的开源基准套件,特别用于 EDA 中的机器学习任务,以促进不同技术节点之间的机器学习可迁移性研究,并提供详 - 评估可解释性方法的函数解释基准
评估构建自动可解释性方法的基本模块的基准套件 FIND,包括与训练神经网络组件类似的函数和相应的描述,表明语言模型仅通过对函数进行黑箱访问,能够推断函数结构,并形成假设、提出实验并根据新数据更新描述,但基于语言模型的描述倾向于捕捉全局函数行 - XFlow:基于图的流行为基准测试
我们提出了一种新颖的基准套件,涵盖了各类任务、基准模型、图形数据集和评估工具,并提供了一个广义方法来处理不同域中与流相关的任务,作为蓝图和路线图。
- SciBench:评估大规模语言模型的大学科学问题解决能力
最近大型语言模型 (LLM) 在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的 - 神经图像压缩:泛化、鲁棒性和频谱偏差
本文提供了一种综合测试套件,用于评估图像压缩方法的视角外 (OOD) 性能,并提出了基于频谱的检查工具,揭示了压缩方法的错误并深入探讨了它们以及数据的频谱特性对 OOD 性能的依赖性。
- Mimic-IV-ICD:一个新的极端多标签分类基准
本文提出了一个基于 MIMIC-IV 公共电子病历数据集的 ICD 编码公共基准套件,使数据预处理标准化并建立全面的 ICD 编码基准数据集,加速未来研究中采用自动 ICD 编码的进展。
- 计算性能感知的无监督概念漂移检测基准测试
该研究提出了一个新的基准套件来评估 AI 系统中的概念漂移检测算法,其中考虑了计算性能和检测质量,并且集成在流式学习的框架中。该套件支持合成和真实数据流的评估,有助于科学界得到无监督漂移检测算法的基准表现。
- 面向顺序转移优化的可伸缩测试问题生成器
本文针对现有的测试问题不能很好地设计 STO 问题,提出了表示 STO 问题的简单概念,介绍了被之前的研究所忽视的重要问题特征,提出了一些设计准则和一种具有超强可扩展性的问题生成器以及 12 个 STOPs 的基准套件,可以用来比较不同的 - ICLR多智能体强化学习中的廉价交流发现与利用
本文针对合作多智能体增强学习方法中,通过便宜谈话渠道实现智能体之间的通信的问题,提出了一种基于互信息最大化的算法,分别对便宜话探测和利用进行了研究,并在这两个部分都优于现有算法的前提下,开发出一种新的框架,还发布了一套新的基准测试套件以刺激 - 关于大型语言模型的规划能力(一项带有提议基准的关键调查)
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
- PDEBENCH: 一种用于科学机器学习的广泛基准测试
介绍了一种基于偏微分方程的时间依赖性模拟任务的基准套件 PDEBench,其涵盖了更广泛的 PDE 范围、更大的数据集、更可扩展的源代码和新的评估指标,并可用于评估新型机器学习模型性能及与现有基线方法的比较。
- 地球观测深度学习的当前趋势:用于图像分类的开源基准竞技场
本文介绍了 AiTLAS 基准测试套件,它是用于评估地球观测中图像分类的最先进深度学习方法的开源基准测试套件。我们对 500 多种模型进行了全面比较分析,以 22 个不同大小和属性的数据集为基础,并将它们与各种多类别和多标签分类任务进行比较 - 安全强化学习综述:方法、理论与应用
该论文从方法、理论和应用的角度回顾了安全强化学习的进展,提出了 “2H3W” 问题并分析了解决这些问题的理论和算法进展;还讨论了安全强化学习方法的样本复杂度,并介绍了相关应用和基准,最后开启了安全强化学习中的挑战问题的讨论并发布了一个包含主