太大而无法失败:较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力
该研究提出了一种新颖的方法,利用 Transformer DL 模型(GPT-2)和与其人为降级版本(GPT-D)之间的困惑度比率,在语言学健康和损伤个体的语言上获得了接近于最先进性能的技术,也演示了通过 GPT-D 产生与 AD 相关的语言异常特征的能力,这对于更好地理解生成神经语言模型的内部工作机制、它们产生的语言以及痴呆症对人类语音和语言特征的不良影响是一步。
Mar, 2022
本文探讨了使用神经语言模型对大脑活动进行研究的方法,主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响,并提出了未来研究的良好实践建议。
Jul, 2022
介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响,它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia),此现象在各种生成模型中普遍存在,为了利用从网络中爬取的大规模数据所获得的收益,我们必须认真对待它。
May, 2023
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024
本论文调查了循环神经网络语言模型(RNNLMs)的规模特性,对在 GPU 上训练非常大的 RNN 的方法进行了讨论,并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高,但相比于 N 元模型,RNNLMs 在标准测试中得到了更低的困惑度。此外,我们训练了目前已知的最大 RNN,并在 ASR 任务上表现出 18% 的相对词误差率提升,在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。
Feb, 2015
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
通过混合训练有痴呆症和健康参与者语言的神经语言模型,使用单一特征的若干计算机方法进行痴呆症患者诊断分类,从而实现聚类的最新方法。
May, 2020
本研究提出了一种针对 LLMs 的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024