基于时间感知的表示学习在时间敏感问答中的应用

EMNLPOct, 2023

基于时间感知的表示学习在时间敏感问答中的应用

Time-Aware Representation Learning for Time-Sensitive Question Answering

Jungbin Son, Alice Oh

TL;DR提出了一个新的时间上下文感知问答（TCQA）框架，通过时间上下文依赖的数据生成框架训练模型，提供了一个用于评估 QA 模型时间感知能力的度量标准，通过数据集和代码验证，TCQA 模型在 TimeQA 数据集上的 F1 分数优于基线模型至少 8.5。

Abstract

Time is one of the crucial factors in real-world question answering (QA) problems. However, language models have difficulty understanding the relationships between time specifiers, such as 'after' and 'before', and numbers, since existing QA datasets do not include sufficient time expr

real-world question answering time-specifiers time-context aware question answering span extraction dataset

发现论文，激发创造

提高基于时间知识图谱的问答时间敏感度

本文提出了一种对时间知识图进行问答的框架，包括一个时间戳估计模块和一个考虑时间顺序的知识图嵌入编码器，能够有效地解决问题中时间相关的挑战，并且在时间知识图问答基准上获得了显著的性能提升。

Mar, 2022

用于回答时间关键问题的数据集

本文提出了构建一种基于时间敏感的问答数据集，用于评估长文档 QA 系统的时间推理能力，针对现有的 QA 数据集缺乏时序问题的问题，展示出当前现有的 SoTA QA 系统（如 BigBird 和 FiD）对于时间推理的能力仍不完备，在此基础上提出将该数据集作为开发更加敏感于时间推理的 NLP 模型的基准测试。

Aug, 2021

异构源上的忠实时态问答

在此研究中，我们提出了针对时态问答系统的新方法，通过可信证据强制执行时间约束条件、正确处理隐含问题，并统一处理知识库、文本和网页表格等异构数据源。实验结果表明，该方法在多个基准测试中展现出卓越的性能。

Feb, 2024

上下文的重要性：对时间问答系统中上下文信息影响的实证研究

该论文通过经验性地考察训练在各种上下文类型中的时间问答（TQA）系统的鲁棒性，填补大型语言模型（LLM）在处理时态信息方面的不足，发现在涵盖相关、无关、稍微改动和无上下文的混合情况下训练，能增强模型的鲁棒性和准确性，并且问题先于上下文的位置布局有着明显影响。提出了两个新的上下文丰富的 TQA 数据集，ContextAQA 和 ContextTQE，并提供了全面的评估和指南，为培养鲁棒的 TQA 模型奠定了基础，对加强 LLM 在面对多样化和潜在对抗性信息时的鲁棒性具有广泛的影响。

Jun, 2024

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

自然语言问答中的问题解答：时间表达的特殊情况

通过在段落中找到对时间相关问题的答案，我们的工作旨在利用一种被广泛应用于一般问答的方法，即答案提取。为了训练我们的模型，我们提出了一个新的数据集，灵感来自于 SQuAD，并专门为提供丰富的时间信息进行了调整。我们选择了适应于历史上最重要冲突的文集 WikiWars。我们的评估表明，通过训练进行模式匹配的深度学习模型，可以适应于处理时间相关问题，但需要对答案直接存在于文本中的问题进行回答。

Nov, 2023

多跳问题回答在时间知识编辑下的应用

多跳问题回答（MQA）与知识编辑（KE）相结合的研究引起了广泛关注，然而现有的 MQA 模型在处理带有明确时间背景的问题时性能较差。为了解决这一限制，我们提出了一种新的框架，即 TEMPLE-MQA，通过构建时间感知图（TAG）来有效区分问题查询中的时间背景，并通过推理路径、结构检索和联合推理阶段来增强多跳问题回答。在基准数据集上的实验证明，TEMPLE-MQA 明显优于基准模型。此外，我们还贡献了一个新的数据集，即 TKEMQA，它专门针对具有时间范围的多跳问题回答领域。

Mar, 2024

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

MenatQA：用于测试大型语言模型的时间理解和推理能力的新数据集

本论文通过构建 MenatQA 来评估大型语言模型（LLMs）在时间理解和推理能力方面的表现，并测试了不同参数大小的主流 LLMs。结果表明，大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型，并且对时间偏差的敏感度较高，且严重依赖于问题中提供的时间信息。此外，本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略，为未来的研究提供了有价值的基准或参考。

Oct, 2023

SituatedQA: 将额外的语境纳入 QA 中

本研究提出了一个开放式检索问答数据集 SituatedQA，旨在研究在不同时间和地点提出相同问题的语境下，答案是否会发生变化。通过构建该数据集并对现有模型进行实验，发现模型对于更新频繁或少见地点的答案产生困难，同时模型对于过去采集的数据无法在新问答中适应，因此建议将 extra-linguistic context 纳入开放式检索 QA 评估标准中。

Sep, 2021