最小监督的时间常识获取
时间常识推理是指理解短语、动作和事件的典型时间背景,并在需要此类知识的问题上使用它进行推理的能力。本文概述了在时间常识推理领域的研究,特别关注通过多种增强和它们在日益增多的数据集上的评估来提高语言模型性能。然而,这些增强模型在处理时间常识属性的推理任务上仍然难以接近人类表现。我们进一步强调在转换器中存在的浅层推理情况下,对研究结果进行谨慎解释以防过度承诺评估结果,可以通过适当准备数据集和合适的评估指标来实现。
Jul, 2023
本文系统地研究了涉及持续时间、频率和时间顺序等事件的不同时间方面的常识问题并定义了五类时间常识。我们使用众包工具开发了一个新的测试集 MCTACO,研究表明,目前在 MCTACO 上表现最好的方法仍然比人类表现差 20%,该研究指出了未来改进的方向。
Sep, 2019
我们提出了一种基于投票的半监督方法,自动获取事件的典型持续时间并将其用作伪标签数据。人工评估表明,我们的伪标签表现出令人惊讶的高准确性和平衡覆盖率。在时间常识问答任务中,实验结果显示,仅使用 400 个事件的伪样本,我们的表现可与现有的基于 BERT 的弱监督方法相媲美,而这些方法需要大量的训练样本。与 RoBERTa 基线相比,我们的最佳方法在准确匹配方面实现了最新的技术水平,提高了 7%。
Mar, 2024
本文首次探讨了预训练语言模型在对话中的时间推理能力,并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现,同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距,为未来时间概念建模和上下文推理方面的研究提出建议。
Jun, 2021
介绍了一种新的挑战,即隐式事件的研究,已有的方法侧重于显式事件;提出了一种基于神经符号学的时态推理模型 SYMTIME,并使用大规模文本的远程监督信号和时态规则结合开始时间和持续时间来推断结束时间,此方法在 TRACIE 的表现优于强基线系统 5%,在零先验知识的训练中性能提高 11%;同时,也能够广泛应用于其他时态推理任务,并且在显式事件基准测试 MATRES 上提高了 1%-9%。
Oct, 2020
本研究介绍了 CoTempQA,一个包含四个共时场景的 QA 基准数据集,用于评估大型语言模型的共时理解和推理能力,发现当前模型在 CoTempQA 任务上表现明显低于人类水平,甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索,发现数学推理在处理共时事件中起着重要作用,并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。
Jun, 2024
本文基于一种时间知识图谱,提出了一种同时兼顾事件因果关系和时序性的逻辑和常识指导嵌入模型(LCGE),可充分考虑事件间的同时性和时序性,并且在常识知识的基础上,通过规则引导建立谓词嵌入标准化策略,从而提高了事件预测的准确率,并且具有可解释性。
Nov, 2022
本文提出概念感知的语言模型 (CALM),通过增强自监督学习任务以从文本中学习常识。CALM 可以在不依赖外部知识图谱的情况下将更多的常识知识整合到预先训练的文本转文本变压器的参数中,从而在自然语言理解和生成任务中实现更好的性能。
Oct, 2020
提出了一种基于符号知识图谱的预训练语言模型生成任务相关信息的 CommonSense Contextualizer (CoSe-Co) 模型,该模型结合句子作为输入文本的上下文信息,以构建一种新的数据集用于训练 CoSe-Co 模型,并在多项选择 QA 以及常识推理任务中展现出显著提高的性能
Jun, 2022