教学时间表编排:问题,基准和最新研究成果
利用机器学习技术进行的实例空间分析为体育赛程安排提供了强大的洞察力,提出了一个算法选择系统,可以根据体育赛程问题实例的特征预测最佳算法,并识别了重要的特征以及改进算法的建议,最后评估了实例的经验难度。
Sep, 2023
理解时间是人类认知的关键方面,在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench,一个广泛的分层时间推理基准,涵盖了广泛的时间推理现象,我们提出可以全面评估大型语言模型的时间推理能力,对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验,如 GPT-4,LLaMA2 和 Mistral,我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距,突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准,促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。
Nov, 2023
通过对 rigorous experiment designs 的计算成本的探究,本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。
Jun, 2024
本文提出了一个新的竞争性算法基准测试,AlgoPerf:训练算法基准测试,在多个工作负载上运行固定的硬件,解决了评估训练算法改进的三个基本挑战,包括如何确定训练何时结束和精确测量训练时间,如何处理测量对确切工作负载细节的敏感性,以及如何公平比较需要超参数调整的算法。在本基准测试中,评估了基线结果和各种优化器构建的基线提交,最终证明了新基准测试的可行性。
Jun, 2023
本文介绍了一种利用现代约束编程语言中的类级别模型自动生成基准实例数据,以重点生成有效和有信息量的基准实例的框架,可评估可行解决方案的相对性能。使用此框架对五个问题进行研究,不仅排名解算器,还通过查找解算器表现显著变化的实例子集,为我们提供了一个更完整的解算器行为理解。
May, 2022
本文研究了铁路重新调度问题,提出了核心问题定义的思想,以应对干扰造成的列车重新调度问题,从时间和空间上限制了问题的范围,并在 Flatland 模拟环境中进行了实验,基于此提供了可扩展的开源实现。
May, 2023
针对大型语言模型在时间推理任务中的性能,在引入新颖的合成数据集的基础上,对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究,从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。
Jun, 2024
该研究提出了一个标准化基准工具 XTSC-Bench,用于评估解释方法在时间序列分类中的效果,并分析了 3 种扰动方法、6 种梯度方法和 2 种示例方法的表现,发现改善解释器的鲁棒性和可靠性对于多变量数据尤为重要。
Oct, 2023