EvEntS ReaLM: 基于语言模型的实体状态事件推理
对 LLMs 的事件推理能力进行了综合评估,发现 LLMs 在事件推理方面的表现仍然不尽如人意。通过发现 LLMs 对事件推理能力存在的不平衡,提出了两种方法来指导 LLMs 利用事件模式知识,并获得了改进。
Apr, 2024
本文研究了大型语言模型在实际事件中实现推理的能力,设计了一个建模和预测框架,其中大型语言模型执行推断,以协助事件序列模型提高预测准确性,并通过在 Amazon Review 和 GDELT 两个具有挑战性的实际数据集上进行的广泛实验,展示了我们的框架的性能优势。
May, 2023
本研究提出 CREPE 作为第一个事件因果推理和实体状态的基准测试,并在其中发现大多数语言模型表现低迷,但通过将事件表示为编程语言,并在表示中注入实体和事件之间的因果关系,提高了模型的性能。
Jan, 2023
本研究提出了一个全面的事件语义处理框架,并引入了一个新的基准测试集 EVEVAL,以全面评估模型的事件语义处理能力,为自然语言处理领域的大语言模型应用提供了重要的研究方向。
May, 2023
大语言模型是否能够忠实地模拟决策智能体的智能能力,本研究通过实证方法首次探讨了大语言模型在通过推理构建决策智能体的心智模型方面的能力,并提供了关于其对强化学习智能体行为的解释性约束方面的新见解。
Jun, 2024
本文探讨了大语言模型在跟踪实体状态和关系变化方面的能力,发现只有预训练于大量代码的 GPT-3.5 模型具有此能力,而使用预训练于文本的较小模型进行微调后也可以完成一定程度的实体追踪。但这种能力不仅取决于模型的大小,大文本库的预训练也不是必要条件。
May, 2023
本研究使用大型语言模型通过自然语言来起草事件模式,之后通过人工技术进行进一步的修订并将事件知识萃取到模式中。通过实验证明,大型语言模型在两个数据集中取得了适当的关键事件回调,并且我们的方法为更轻松地从大型语言模型中提取事件知识提供了可能性。
May, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
研究人员测试了大型语言模型是否能够生成可信的真实世界事件描述,并发现这些模型虽然能够区分可能和不可能的事件,但在区分可能性较小的事件时仍然比人类表现差,这突显了 LLM 在事件知识方面存在的局限性。
Dec, 2022
大语言模型在回答清楚的问题方面非常有效,但面对模糊查询时会表现不可预测且产生错误的输出,因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架,通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力,并对不同的语言模型进行系统评估。结果发现,像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆(BC)来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后,我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力,从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。
Oct, 2023