EMNLPNov, 2023

TempTabQA:面向半结构化表格的时间问题回答

TL;DR通过引入半结构化表中的时间问题回答任务,并使用 TempTabQA 数据集评估现有模型的时间推理能力,我们观察到即使是表现最好的 LLMs 在 F1 得分上也比人类表现差 13.5 个百分点以上,因此我们的数据集有潜力成为改进 NLP 模型时间推理能力的具有挑战性的基准。