理解理解：受大型语言模型驱动的实用框架

Jun, 2024

理解理解：受大型语言模型驱动的实用框架

Understanding Understanding: A Pragmatic Framework Motivated by Large Language Models

Kevin Leyton-Brown, Yoav Shoham

TL;DR通过随机采样和应用概率置信边界，我们提出了一个测试任何机器或人类是否理解一门主题的框架，其中包括确定问题范围、要求一般能力和避免荒谬答案，但允许某些问题的错误和 “我不知道” 答案。根据我们的框架，目前的大型语言模型不能说理解非平凡领域，但这个框架提供了一个测试理解的实用方法，也是构建理解型人工智能代理的工具。

Abstract

Motivated by the rapid ascent of large language models (LLMs) and debates about the extent to which they possess human-level qualities, we propose a framework for testing whether any agent (be it a machine or a human) understands a subject matter. In Turing-test fashion, the framework

large language models understanding turing test questions probabilistic confidence bounds

发现论文，激发创造

大型语言模型中的意义和理解

机器能否理解自然语言？该研究评估了人工智能生成型大型语言模型 (LLMs) 的最新发展，批评了把机器语言表现仅视为语法操作和模拟理解的传统哲学假设，并强调了将自然语言理解归因于最先进的 LLMs 的关键条件，认为 LLMs 不仅仅使用语法，还使用语义，理解不是模拟而是复制，同时确定了它们如何给予语言表达的意义基础。

Oct, 2023

自我认知评估大型语言模型

基于 Feynman 的理解通过创造原则，我们引入了一个易于实施的自我认知评估框架，评估模型对自动生成的问题的理解和回应能力。我们的研究发现，在多个任务上测试多个模型后，模型的自我认知能力存在显著差距。进一步分析表明，这些差距可能是由于与人类注意机制的不匹配所导致的。此外，对自动生成的数学任务进行微调可以提高模型的数学性能，突出了该框架在高效和富有洞察力的模型评估方面的潜力，并可能有助于改善大型语言模型。

Jun, 2024

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023

大型语言模型：当前辩论的细腻需求和实用角度下的理解

当前大型语言模型（LLMs）在生成符合语法、流畅的文本方面无与伦比。这篇论文针对 LLMs 的能力进行了辩论，并通过批判性评估三个经常在批评中出现的观点来展示 LLMs 仍需更多细化。其次，文章从实证和理论的角度提出了对 LLMs 中 “真正” 的理解和意向性的实用观点，并讨论了在何种情况下将心理状态归因于 LLMs 对于这一日益重要的技术在社会中具有实用的哲学背景。

Oct, 2023

关于一般语言理解

自然语言处理领域对于意义和测量的问题进行了实证研究，本文勾勒了一种理解模型，用于评估当前模型质量测量方法的适应性，并指出不同语言使用情境类型的特点、语言理解是多方面现象，以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。

Oct, 2023

AI 系统中自然语言理解的评估框架的再思考：语言习得作为未来指标的核心

人工智能领域，大型语言模型在自然语言处理方面的前所未有的进步为重新考虑传统的机器智能度量提供了机会。本文提出了从既定的图灵测试转向以语言习得为核心的全面框架，受到了大型语言模型最新进展的启发。

Sep, 2023

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

通过问答探究语言模型对结构化语义理解和生成的能力

最近大规模语言模型能力的进步引发了对其评估的新浪潮，这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力，实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平，但在生成正确逻辑形式方面仍有改进的空间，使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好，同时结果还表明模型对不同形式语言表现出显著的敏感性，总体而言，形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。

Jan, 2024

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

不欺骗图灵测试：朝向人工智能的基于实证的语言学习

研究自然语言理解在人工智能领域的挑战，结合认知科学、心理学、思维哲学和认知语言学的见解，评估目前的方法和挑战。

Jun, 2022