教学时间表编排：问题，基准和最新研究成果

Jan, 2022

教学时间表编排：问题，基准和最新研究成果

Educational Timetabling: Problems, Benchmarks, and State-of-the-Art Results

Sara Ceschia, Luca Di Gaspero, Andrea Schaerf

TL;DR本文就 “标准” 规划和相应的基准实例进行了教育时间表领域的研究成果调查，找到、评估和讨论了这些规划的主要特点、相关可用数据和最新的成果研究进展。

Abstract

We propose a survey of the research contributions on the field of Educational Timetabling with a specific focus on "standard" formulations and the corresponding benchmark instances. We identify six of such

educational timetabling formulations benchmark instances state-of-the-art results search techniques

发现论文，激发创造

体育赛程安排中选择哪种算法？

利用机器学习技术进行的实例空间分析为体育赛程安排提供了强大的洞察力，提出了一个算法选择系统，可以根据体育赛程问题实例的特征预测最佳算法，并识别了重要的特征以及改进算法的建议，最后评估了实例的经验难度。

Sep, 2023

应对数据不确定性的考试时间安排问题的鲁棒性方法

本研究通过分析鲁棒优化方法在考试时间表问题上的应用，讨论了几种可能的实现方式，并通过实例生成框架在真实和随机实例上进行了影响分析。

Nov, 2023

TimeBench：大型语言模型中的时间推理能力全面评估

理解时间是人类认知的关键方面，在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench，一个广泛的分层时间推理基准，涵盖了广泛的时间推理现象，我们提出可以全面评估大型语言模型的时间推理能力，对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验，如 GPT-4，LLaMA2 和 Mistral，我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距，突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准，促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。

Nov, 2023

位置：强化学习研究中的基准测试受限

通过对 rigorous experiment designs 的计算成本的探究，本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。

Jun, 2024

神经网络训练算法基准测试

本文提出了一个新的竞争性算法基准测试，AlgoPerf：训练算法基准测试，在多个工作负载上运行固定的硬件，解决了评估训练算法改进的三个基本挑战，包括如何确定训练何时结束和精确测量训练时间，如何处理测量对确切工作负载细节的敏感性，以及如何公平比较需要超参数调整的算法。在本基准测试中，评估了基线结果和各种优化器构建的基线提交，最终证明了新基准测试的可行性。

Jun, 2023

生成富有信息的基准示例的框架

本文介绍了一种利用现代约束编程语言中的类级别模型自动生成基准实例数据，以重点生成有效和有信息量的基准实例的框架，可评估可行解决方案的相对性能。使用此框架对五个问题进行研究，不仅排名解算器，还通过查找解算器表现显著变化的实例子集，为我们提供了一个更完整的解算器行为理解。

May, 2022

联合结构和超参数优化的表格基准测试

为了更好地评估超参数优化方法，本文提供了一组便宜但仍然代表现实用例的基准测试，并在基准测试上对超参数优化方法进行了广泛的性能和鲁棒性比较。

May, 2019

可扩展实时铁路重新调度的范围限制：探索性研究

本文研究了铁路重新调度问题，提出了核心问题定义的思想，以应对干扰造成的列车重新调度问题，从时间和空间上限制了问题的范围，并在 Flatland 模拟环境中进行了实验，基于此提供了可扩展的开源实现。

May, 2023

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024

XTSC-Bench：时间序列分类模型解释器的定量基准测试

该研究提出了一个标准化基准工具 XTSC-Bench，用于评估解释方法在时间序列分类中的效果，并分析了 3 种扰动方法、6 种梯度方法和 2 种示例方法的表现，发现改善解释器的鲁棒性和可靠性对于多变量数据尤为重要。

Oct, 2023