太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

ACLJun, 2024

太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies

PDF

Changye Li, Zhecheng Sheng, Trevor Cohen, Serguei Pakhomov

TL;DR神经网络的内在评估指标，困惑度（PPL），被广泛用于理解自回归神经语言模型（NLMs）的行为。该研究探索了一种新型的双向注意力头切除方法，其呈现了与人脑研究中认知和大脑储备概念相关的特性，暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。

Abstract

As artificial neural networks grow in complexity, understanding their inner workings becomes increasingly challenging, which is particularly important in healthcare applications. The intrinsic evaluation metrics of autoregressive neural language models (NLMs), →

artificial neural networks autoregressive neural language models perplexity transformer-based nlms attention mechanism

发现论文，激发创造

GPT-D: 通过有意识地降低人工神经语言模型的能力引发与老年痴呆相关的语言异常

该研究提出了一种新颖的方法，利用 Transformer DL 模型（GPT-2）和与其人为降级版本（GPT-D）之间的困惑度比率，在语言学健康和损伤个体的语言上获得了接近于最先进性能的技术，也演示了通过 GPT-D 产生与 AD 相关的语言异常特征的能力，这对于更好地理解生成神经语言模型的内部工作机制、它们产生的语言以及痴呆症对人类语音和语言特征的不良影响是一步。

Mar, 2022

神经语言模型并非一出生就适合大脑数据，但训练有助于改善

本文探讨了使用神经语言模型对大脑活动进行研究的方法，主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响，并提出了未来研究的良好实践建议。

Jul, 2022

模型痴呆：生成数据使模型遗忘

介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响，它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia)，此现象在各种生成模型中普遍存在，为了利用从网络中爬取的大规模数据所获得的收益，我们必须认真对待它。

May, 2023

大型语言模型在预测神经科学结果方面超越人类专家

通过大规模语言模型（LLMs）来预测神经科学实验结果，发现 LLMs 在预测实验结果方面超过了专家，并且经过优化的神经科学文献模型 BrainGPT 表现更好，这预示着人类与 LLMs 共同合作进行科学发现的未来。

Mar, 2024

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

通过从头开始训练领域知识来匹配领域专家

通过领域特定的自回归训练方法，在小型的 GPT-2 模型上训练神经科学文献，可以实现即使在小规模的语言模型上也能达到专家水平的性能表现。

May, 2024

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

阿尔茨海默病患者词汇检索障碍对神经语言模型敏感性的双重困惑之谈

通过混合训练有痴呆症和健康参与者语言的神经语言模型，使用单一特征的若干计算机方法进行痴呆症患者诊断分类，从而实现聚类的最新方法。

May, 2020

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024