LLM 在理解逆关系上的无效性研究

EMNLPOct, 2023

An Investigation of LLMs' Inefficacy in Understanding Converse Relations

Chengwen Qi, Bowen Li, Binyuan Hui, Bailin Wang, Jinyang Li...

TL;DR大型语言模型在形式化语言任务中取得了显著的成功，但目前的基准主要遵循 LLM 的预训练数据分布。本文探讨了 LLM 在一种特殊情况下的结构语义理解能力问题，提出了 ConvRe 基准，通过多项选择问答任务评估 LLM 确定关系和相关文本匹配的能力。实验结果表明，LLM 在该基准上仍存在挑战。

Abstract

large language models (LLMs) have achieved remarkable success in many formal language oriented tasks, such as structural data-to-text and semantic parsing. However current benchmarks mostly follow the data distribution of the pre-training data of LLMs. Therefore, a natural question ris

large language models converse binary relation convre benchmark multi-choice question answering scaling trends

发现论文，激发创造

低资源情境下，LLM 在关系抽取中的表现如何？综合评估

该研究构建了十个低资源语言的关系抽取数据集，并利用语言困惑度对翻译数据进行过滤，最后在这些数据集上评估了开源大型语言模型的性能。

Jun, 2024

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

通过问答探究语言模型对结构化语义理解和生成的能力

最近大规模语言模型能力的进步引发了对其评估的新浪潮，这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力，实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平，但在生成正确逻辑形式方面仍有改进的空间，使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好，同时结果还表明模型对不同形式语言表现出显著的敏感性，总体而言，形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。

Jan, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

利用大型语言模型增强知识图谱构建

本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用，以可持续发展文本为案例进行了多个实验，结果表明，使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性，并探索了使用基础 LLM 模型自动创建本体论的潜力，取得更相关和准确的知识图谱。

May, 2023

大型语言模型在组合性关系推理中的限制探索

通过包含 1,500 个测试案例的评估，我们在英语中全面评估了大型语言模型（LLMs）在推理组合关系方面的能力，旨在了解 LLMs 处理不同语言环境下的组合关系推理的鲁棒性和适应性。

Mar, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

LLM 能够正式对话吗？自动评估 LLM 在翻译和解释正式规范中的表现

利用大型语言模型 (LLMs) 将自然语言描述转换为形式化规范的能力进行了评估，提出了一种使用两个 LLMs 与现成验证程序结合的方法来自动评估其翻译能力，结果显示目前最先进的 LLMs 无法充分解决这个任务，限制了它们在复杂系统设计中的实用性。

Mar, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

再探大型语言模型作为零 - shot 关系抽取器

本研究聚焦于使用大型语言模型作为无样本关系抽取器。通过分析现有关系抽取提示的不足之处，并引入诸如 CoT 的最新提示技术，我们提出了一种名为 SumAsk 的简单提示方法，通过使用大型语言模型将关系抽取输入转化为有效的问答格式。同时，我们在各种基准测试和设置上进行了广泛的实验，研究了大型语言模型在无样本关系抽取方面的能力，发现 SumAsk 方法在不同模型尺寸、基准测试和设置上都能显著提高大型语言模型的性能，在与无样本和完全监督方法相比具有一定竞争力甚至优越性能的同时，大型语言模型在提取重叠关系方面表现出了良好的性能，然而，不同的关系之间性能差异较大，大型语言模型相较于小型语言模型在处理挑战性的无适用项关系时表现出了有效性。

Oct, 2023