用于回答时间关键问题的数据集

Aug, 2021

A Dataset for Answering Time-Sensitive Questions

Wenhu Chen, Xinyi Wang, William Yang Wang

TL;DR本文提出了构建一种基于时间敏感的问答数据集，用于评估长文档 QA 系统的时间推理能力，针对现有的 QA 数据集缺乏时序问题的问题，展示出当前现有的 SoTA QA 系统（如 BigBird 和 FiD）对于时间推理的能力仍不完备，在此基础上提出将该数据集作为开发更加敏感于时间推理的 NLP 模型的基准测试。

Abstract

Time is an important dimension in our physical world. Lots of facts can evolve with respect to time. For example, the U.S. President might change every four years. Therefore, it is important to consider the time dimension and empower the existing QA models to reason over time. However, the existing QA datasets contain rather few time-sensitive questions, hen

time-sensitive qa dataset temporal reasoning nlp models benchmark bigbird

发现论文，激发创造

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

基于时间感知的表示学习在时间敏感问答中的应用

提出了一个新的时间上下文感知问答（TCQA）框架，通过时间上下文依赖的数据生成框架训练模型，提供了一个用于评估 QA 模型时间感知能力的度量标准，通过数据集和代码验证，TCQA 模型在 TimeQA 数据集上的 F1 分数优于基线模型至少 8.5。

Oct, 2023

基于知识库的通用且可解释的时间问答基准

本文提出了一个基于 Wikidata 的时间问答数据集 TempQA-WD，以鼓励更多的研究在复杂推理任务方面的延伸和拓展。该数据集具有以下特点：（a）包含了中间 sparql 查询以方便基于语义解析的 KBQA 方法的评估，（b）可以推广到多个知识库，如 Freebase 和 Wikidata，（c）挑战性更强。

Jan, 2022

提高基于时间知识图谱的问答时间敏感度

本文提出了一种对时间知识图进行问答的框架，包括一个时间戳估计模块和一个考虑时间顺序的知识图嵌入编码器，能够有效地解决问题中时间相关的挑战，并且在时间知识图问答基准上获得了显著的性能提升。

Mar, 2022

MenatQA：用于测试大型语言模型的时间理解和推理能力的新数据集

本论文通过构建 MenatQA 来评估大型语言模型（LLMs）在时间理解和推理能力方面的表现，并测试了不同参数大小的主流 LLMs。结果表明，大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型，并且对时间偏差的敏感度较高，且严重依赖于问题中提供的时间信息。此外，本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略，为未来的研究提供了有价值的基准或参考。

Oct, 2023

时态感知的数据集是应对新常态的适应性知识库

研究了文本分类、知识获取和语言模型中的最新进展，提出了时态感知的错误信息数据集，证明了即使是简单的时态感知也可以显著提高分类器的准确性，并介绍了一个跨越 25 个月的大规模 COVID-19 错误信息数据集 COVID-TAD。

Nov, 2022

异构源上的忠实时态问答

在此研究中，我们提出了针对时态问答系统的新方法，通过可信证据强制执行时间约束条件、正确处理隐含问题，并统一处理知识库、文本和网页表格等异构数据源。实验结果表明，该方法在多个基准测试中展现出卓越的性能。

Feb, 2024

SituatedQA: 将额外的语境纳入 QA 中

本研究提出了一个开放式检索问答数据集 SituatedQA，旨在研究在不同时间和地点提出相同问题的语境下，答案是否会发生变化。通过构建该数据集并对现有模型进行实验，发现模型对于更新频繁或少见地点的答案产生困难，同时模型对于过去采集的数据无法在新问答中适应，因此建议将 extra-linguistic context 纳入开放式检索 QA 评估标准中。

Sep, 2021

TWEETQA：一个以社交媒体为焦点的问答数据集

这篇论文介绍了第一个面向社交媒体数据的自动问答系统大规模数据集，结果显示先前在形式文本上表现优异的神经模型在社交媒体文本上表现不佳，即使使用 fine-tuned BERT 模型，性能也远远落后于人类表现，因此有必要改进社交媒体文本问答系统。

Jul, 2019

TempTabQA：面向半结构化表格的时间问题回答

通过引入半结构化表中的时间问题回答任务，并使用 TempTabQA 数据集评估现有模型的时间推理能力，我们观察到即使是表现最好的 LLMs 在 F1 得分上也比人类表现差 13.5 个百分点以上，因此我们的数据集有潜力成为改进 NLP 模型时间推理能力的具有挑战性的基准。

Nov, 2023