嵌入中藏着什么？无论是什么嵌入，玫瑰都会闻起来一样香吗？

Jun, 2024

嵌入中藏着什么？无论是什么嵌入，玫瑰都会闻起来一样香吗？

What's in an embedding? Would a rose by any embedding smell as sweet?

Venkat Venkatasubramanian

TL;DR大型语言模型 (LLMs) 通常被批评缺乏真正的 “理解” 和 “推理” 能力，被视为高级自动填充系统。本研究认为这种观点可能忽视了一个重要的见解，即 LLMs 确实发展出一种类似于 “几何” 的经验性 “理解”，这对自然语言处理、计算机视觉、代码辅助等领域的应用似乎足够了。然而，这种基于不完全和嘈杂数据构建的 “几何” 理解使得 LLMs 不可靠、难以推广，并且缺乏推理能力和解释能力，类似于几十年前启发式专家系统面临的挑战。为了克服这些局限性，本研究建议将 LLMs 与包括专家系统中使用的符号 AI 元素在内的 “代数” 知识表示集成起来。这种集成旨在创建大型知识模型 (LKMs)，它们不仅具备以第一原理为基础的 “深度” 知识，而且具备推理和解释的能力，模仿人类专家的能力。为了安全有效地利用生成式 AI 的全部潜力，需要从 LLMs 转向更全面的 LKMs，这是一种新的范式转变。

Abstract

large language models (LLMs) are often criticized for lacking true "understanding" and an ability to "reason" with their knowledge, being seen merely as advanced autocomplete systems. We believe that this perspec

large language models understanding reasoning geometry-like understanding knowledge representation

发现论文，激发创造

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023

词嵌入再探讨：LLMs 是否提供新的东西？

通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义，系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示，大型语言模型往往比经典模型更紧密地聚集语义相关的词，并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外，一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。

Feb, 2024

大型知识模型：视角与挑战

人类对世界的理解与我们的感知和认知密切相关，其中人类语言作为世界知识的重要承载者之一。本文通过 “知识” 这个视角来探索大型模型，并讨论符号知识如何增强大型语言模型以及大型语言模型如何扩展传统符号知识基础。考虑到人类知识的复杂性，我们倡导创建专门管理多样化知识结构的大型知识模型，并提出了五个 “A” 原则来区分 LKM 的概念。

Dec, 2023

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023

大型语言模型能否将 2 和 2 相加？探测蕴含的数学关系

大型语言模型在知识获取和统计推理方面取得了稳定进展，但在常识推理任务中仍存在局限性，纯统计学习难以应对其中的组合爆炸问题，更大并不总是更好，而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。

Apr, 2024

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

大型语言模型引导的嵌入的隐私风险理解

这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性，发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性，可能对用户隐私造成负面影响，并探讨了缓解这一风险的初步策略。

Apr, 2024

语言模型作为知识嵌入

该论文提出了一种基于对比学习的 LMKE 方法，采用语言模型从文本信息中推导出知识嵌入，旨在丰富长尾实体的表征，并解决以前的基于描述的方法的问题，实验结果表明 LMKE 在知识嵌入基准测试中特别是长尾实体上取得了最先进的性能.

Jun, 2022

使用孪生神经网络分析嵌入层和相似度得分

我们的研究比较了不同的领先嵌入算法及其碳足迹的准确性，从而为每个嵌入算法提供了一个全面的审视。

Dec, 2023

使用语言模型的学习界限

本文研究大语言模型在自然语言处理中的局限性，特别是无法学习一些基本语义属性，如语义蕴涵和一致性，以及不能学习超越 Borel 层次结构的概念，这对语言模型的语言理解能力产生了严重限制。

Jun, 2023