一个语言模型的隐空间指南

Feb, 2024

A Language Model's Guide Through Latent Space

Dimitri von Rütte, Sotiris Anagnostidis, Gregor Bachmann, Thomas Hofmann

TL;DR通过用概念向量探测和激活推断期间的激活来引导隐藏表示，该论文将概念引导的研究拓展到诸如适应性、幽默、创造力和质量等更丰富的概念，探索现有检测和引导策略在这些挑战性环境中的工作程度，同时开发了一种新的以概念引导为度量的指标来评估，研究显示，一些概念如真实性相对容易通过现有技术进行引导，而适应性或幽默等新概念则更难探测和引导，并需要进一步调整。

Abstract

concept guidance has emerged as a cheap and simple way to control the behavior of language models by probing their hidden representations for concept vectors and using them to perturb activations at inference tim

concept guidance language models concept vectors appropriateness humor

发现论文，激发创造

语言模型中的真值判断：信念方向是上下文敏感的

我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

Apr, 2024

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从 Glove 到 ALBERT 和 T5 等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于 transformer 的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Jun, 2024

大型语言模型在学习概念空间中的潜力分析

概念空间理论是一种有影响力的认知语言框架，用于表示概念的意义。通过挖掘大型语言模型（LLM）学习概念空间的潜力，研究发现 BERT 家族的精细调整模型能与甚至胜过最大的 GPT-3 模型，尽管体积要小 2 到 3 个数量级。

Oct, 2023

线性受控语言生成与执行保证

使用控制性语言生成策略，通过对概念语义的线性表示在潜空间中实现文本生成的量化处理，以确保性能保证，并通过在闭合形式中计算的小型无梯度干预实现动态轨迹偏离不希望的含义区域，从而避免不良内容并保持文本质量。

May, 2024

无须监督，发现语言模型中的潜在知识

提出了一种使用纯无监督方式直接在语言模型的内部激活中查找潜在知识的方法，通过在激活空间中找到满足逻辑一致性属性的方向，可以精确回答只有未标注模型激活的肯定 - 否定问题。在跨 6 个模型和 10 个问答数据集的情况下，尽管不使用监督和模型输出，该方法可以恢复大型语言模型中的各种知识，并且平均超过零 - shot 准确性 4％。结果初步表明，即使我们无法访问显式的基础真值标签，也可以发现语言模型所知道的与它们所说的不同。同时，该方法可以将 prompt 敏感度减半，并在要求模型生成错误答案时仍然保持高准确性。

Dec, 2022

潜在语言学习

使用自然语言作为参数空间是捕捉自然任务结构的有效方法，通过先预训练一个语言解释模型，然后在描述的空间中搜索以最小化解释器在训练示例上的损失来学习新概念（例如分类器）。

Nov, 2017

文本控制视觉模型的概念代数

本文介绍了一种基于隐藏概念的推理形式，以解决文本生成模型的指导控制问题，并提出了概念代数解决了由于提示带来的限制问题。

Feb, 2023

关于微调自然语言处理模型中潜空间的转换

本研究通过无监督方法分析表示空间中的潜在概念，并考察了预训练模型和微调后模型间的相似性。结论显示：较高层次的潜在空间向任务特定概念演变，而较低层次则保留了预训练模型获得的通用概念；某些概念向输出类别具有极性，并可用于生成对抗性触发器。

Oct, 2022

利用语言模型进行认证推理

该论文介绍了一种名为 LogicGuide 的工具，通过设置有状态和增量约束来指导语言模型的理性推理，即模型在这个指导下生成的内容是合理的。经过测试，LogicGuide 工具有效地提高了 GPT-3、GPT-3.5 Turbo 和 LLaMA 等模型的性能。

Jun, 2023

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023