对齐问题

Dec, 2023

The Problem of Alignment

Tsvetelina Hristova, Liam Magee, Karen Soldatic

TL;DR大型语言模型与人类价值观的结构对齐、用户与模型之间的相互作用以及语言的交际导向性是当前研究的主要关注点。

Abstract

large language models produce sequences learned as statistical patterns from large corpora. In order not to reproduce corpus biases, after initial training models must be aligned with human values, preferencing certain continuations over others. →

发现论文，激发创造

大型语言模型的盲点：超叙事语言信息

研究大型语言模型（LLMs）的能力和潜力，其中涵盖语言学、认知科学、数学和历史等领域，提出将LLMs暴露于语言训练数据中的能力可重新定义为暴露于语言编码的故事信息，并探讨其误差原因。

Jun, 2023

多样性与语言技术：如何科技语言偏见导致知识公正失衡

通过本文的研究表明，AI技术的推广仍存在技术语言偏见的问题，这导致一些系统无法正确地表达来自其他社区的概念，从而忽视多样性和边缘化语言社群的需求和世界观。

Jul, 2023

空符号问题：针对大型语言模型中“对齐度”操作的更清晰的范式

通过后结构主义社会政治理论的视角，探讨大型语言模型中的“对准”概念，特别审视其与空符号的相似之处。通过建立一个框架，明确抽象概念在实证数据集中的操作方式，我们旨在推动透明和批判性评估的文化，帮助研究人员在将大型语言模型与人类群体对准的复杂性中进行导航。

Oct, 2023

大型语言模型：当前辩论的细腻需求和实用角度下的理解

当前大型语言模型（LLMs）在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论，并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次，文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点，并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。

Oct, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

通过叙述方式检测语言模型中的模式坍塌

研究发现，较早的大型语言模型在与虚拟作者的对齐中存在模式崩溃现象，导致无法多角度模拟，而通过指导调整和人类反馈强化学习所得的对齐模型保留了模拟任意虚拟作者的能力，对于社会学模拟研究具有重要意义。

Feb, 2024

从分布到Overton多元主义：研究大型语言模型的对齐问题

对语言模型执行对齐过程会改变其输出分布的多个属性。研究分析了语言模型响应的对齐后分布漂移的两个方面，发现对齐过程抑制了无关和无用的内容，将输出分布转向覆盖基础语言模型中多个响应的信息，从而在单个响应中提供多样化的信息。此外，研究还表明基础模型可以通过上下文示例和低分辨率的语义提示来产生与对齐模型相似的响应，进一步证明了对齐技术对基础语言模型的有用行为进行了捕捉，切实模拟了对齐后的语言模型响应，而无需进行精细调整。

Jun, 2024

大型模型：将工程成就误认为人类语言能力

该研究论文主要讨论了关于大型语言模型（LLMs）的语言能力的关键问题，指出基于语言完整性和数据完整性的两个无根据的假设导致了关于LLMs能力的夸大和误导性说法，同时通过非行动方法论的角度提出了存在于LLMs中的三个缺失因素，即具身性、参与度和不稳定性，这些缺失因素使得LLMs在当前的架构中无法成为类似于人类的语言代理。

Jul, 2024

语言模型作为语言模型

本论文探讨现代语言模型在理论语言学中的潜在贡献，尤其是在它们通过数据学习到复杂语言知识方面。研究表明，这些模型不仅能够学习层次语法结构，还能对多种语言现象表现出敏感性，这为语言习得和能力假设的研究提供了新的实验性依据。因此，理论语言学家与计算研究者之间的更紧密合作有望产生重要的洞见。

Aug, 2024

使用带注释的文学方言语料库检验语言建模假设

本研究解决了对19世纪美国文学正字法变异的理解不足，提出了一个带有方言标签的语料库，以进行计算实验。该论文展示了通过不同的标记化方案，模型对正字法信息的提取方式受到显著影响，揭示了“方言效应”在多种语言渠道中如何表现并影响结果。

Oct, 2024