大型语言模型与语言意图

Apr, 2024

Large language models and linguistic intentionality

Jumbly Grindrod

TL;DR大型语言模型在产生的文字中是否有意义？本文提出了一个不同的方法来考虑语言模型满足最佳语义元论理论的条件，并运用了两种理论来论证大型语言模型输入的有意义。

Abstract

Do large language models like Chat-GPT or LLaMa meaningfully use the words they produce? Or are they merely clever prediction machines, simulating language use by producing statistically plausible text? There have already been some initial attempts to answer this question by showing th

large language models meaningful use metasemantic theories linguistic content linguistic intentionality

发现论文，激发创造

大型语言模型中的意义和理解

机器能否理解自然语言？该研究评估了人工智能生成型大型语言模型 (LLMs) 的最新发展，批评了把机器语言表现仅视为语法操作和模拟理解的传统哲学假设，并强调了将自然语言理解归因于最先进的 LLMs 的关键条件，认为 LLMs 不仅仅使用语法，还使用语义，理解不是模拟而是复制，同时确定了它们如何给予语言表达的意义基础。

Oct, 2023

大型语言模型：当前辩论的细腻需求和实用角度下的理解

当前大型语言模型（LLMs）在生成符合语法、流畅的文本方面无与伦比。这篇论文针对 LLMs 的能力进行了辩论，并通过批判性评估三个经常在批评中出现的观点来展示 LLMs 仍需更多细化。其次，文章从实证和理论的角度提出了对 LLMs 中 “真正” 的理解和意向性的实用观点，并讨论了在何种情况下将心理状态归因于 LLMs 对于这一日益重要的技术在社会中具有实用的哲学背景。

Oct, 2023

语言笔者大：LLMs、ChatGPT、接地、意义与理解

ChatGPT 是如何运作并具备超过预期能力的？本文通过与 ChatGPT-4 对话的方式，对 ChatGPT 作出解释，包括与语言自身相关的良性偏见、语言的间接语义基础以及神经网络中的类别学习等。

Feb, 2024

机器心理学：大型语言模型预测人类记忆

通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力，研究发现 ChatGPT 和人类的表现有惊人的一致性，尽管它们的内部机制可能存在显著差异，这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。

Mar, 2024

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

大型语言模型：分析 LLMs 的理论语言能力

该研究探讨了大型语言模型的元语言能力，通过针对几种语言学分支的实验以及命令设计，分析了 GPT-4 生成元语言分析的能力及其局限性，并提供了未来的研究方向。

May, 2023

Clever Hans 或神经心理理论？在大型语言模型中进行社交推理的应力测试

我们通过在 6 个任务上进行广泛的评估，发现虽然 LLM 表现出某些神经理论社交认知能力，但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素，并发现 LLM 难以应对对抗性例子，这表明它们依赖于浅层启发式算法，而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。

May, 2023

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023