您是一位专业的语言标注专家”：LLMs 作为抽象意义表达分析器的限制

EMNLPOct, 2023

您是一位专业的语言标注专家”：LLMs 作为抽象意义表达分析器的限制

"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation

Allyson Ettinger, Jena D. Hwang, Valentina Pyatkin, Chandra Bhagavatula, Yejin Choi

TL;DR通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果，研究发现这些模型能够可靠地重现 AMR 的基本格式，并且通常能够捕捉到核心事件、论证和修饰结构，但模型的输出容易出现频繁和重大错误，从整体上来看，即使在演示中，模型也几乎没有成功地产生完全准确的解析结果，这表明这些模型尽管能够捕捉到语义结构的某些方面，但在支持完全准确的语义分析或解析方面仍存在关键的局限性。

Abstract

large language models (LLMs) show amazing proficiency and fluency in the use of language. Does this mean that they have also acquired insightful linguistic knowledge about the language, to an extent that they can serve as an "expert →

large language models linguistic annotator abstract meaning representation amr parses semantic structure

发现论文，激发创造

LLMs 作为标注者的有效性：直接表征的比较概述和实证分析

通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力，同时揭示了存在的限制，如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解，我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性，从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法，并强调了在这个方向上进一步研究的必要性。

May, 2024

大型语言模型：分析 LLMs 的理论语言能力

该研究探讨了大型语言模型的元语言能力，通过针对几种语言学分支的实验以及命令设计，分析了 GPT-4 生成元语言分析的能力及其局限性，并提供了未来的研究方向。

May, 2023

LLMs 是否可以促进预训练语言模型的解释？

利用 ChatGPT 作为注释器，我们在预训练语言模型中发现潜在概念，并采用 GPT 注释进行注释。我们的发现表明，与人类注释概念相比，ChatGPT 产生了准确且语义更丰富的注释。此外，我们展示了 GPT-based 注释如何增强解释分析方法，其中我们展示了两个分析框架：probing framework 和 neuron interpretation。为了促进进一步的探索和实验，我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。

May, 2023

大型语言模型时代的语义表示分析

在大语言模型 (LLMs) 时代，本文调查了语义表征在 LLMs 时代中的作用，并探讨了 Abstract Meaning Representation (AMR) 对五个不同自然语言处理任务的影响。通过提出了一种名为 AMRCoT 的 AMR 驱动的思维链提示方法，我们发现它通常会使性能下降。通过一系列分析实验，我们发现很难预测 AMR 在哪些输入示例上能帮助或妨碍，但错误通常出现在多词表达式、命名实体以及 LLM 在最终推理步骤中必须将其基于 AMR 的推理与预测相连接的地方。因此，我们建议将来关注这些领域的语义表征工作。

May, 2024

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023

将大型语言模型与逻辑编程相结合，从文本中进行稳健和通用的推理

本研究探讨大型语言模型在自然语言推理任务上的表现。通过使用少量样本指导大型语言模型进行任务适应，以及可应用于多个任务的可重用的知识模块，结合逻辑形式输入的答案程序，实现了在多项 NLP 基准测试上的最新性能，包括 bAbI，StepGame，CLUTRR 和 gSCAN，并成功解决了机器人规划任务，而大型语言模型单独无法解决。

Jul, 2023

评估统计语言模型作为实用推理器

本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力，并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布，但对于否定的组成较为困难。

May, 2023

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

机器心理学：大型语言模型预测人类记忆

通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力，研究发现 ChatGPT 和人类的表现有惊人的一致性，尽管它们的内部机制可能存在显著差异，这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。

Mar, 2024