新词测试:评估大型语言模型的鲁棒性
本文提出了一种基于探测任务的神经网络模型的韧性度量方法,在通过语言模型中提取出的语言结构上评估了四种大型语言模型的一致性和鲁棒性,并发现神经网络的新兴句法表示具有脆弱性。
Oct, 2022
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准。
May, 2024
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
该研究在 Wikidata 数据集上,评估了 11 个预训练的蒙面语言模型对时间概念漂移的影响,以确保其能够适应不断更新的现实世界的事实更新,并提供了一个综合框架来构建不同时间粒度的事实数据集,并通过多个评估角度来评估模型是否过时。
Feb, 2023
提出了一个新的基准 SLANG,评估语言模型对于理解互联网上新兴语言趋势的能力,并提出了基于因果推断的方法 FOCUS,它通过研究语言变化的真实例子来增强语言模型对于新短语和用法模式的理解。实证分析表明,基于因果推断的方法在解释互联网俚语和表情包时,准确性和相关性方面优于传统模型。
Jan, 2024
通过系统分析大型语言模型(LLMs)抵抗提示扰动的稳定性,本研究构建 E-Bench 模拟真实人类使用情况,并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因,实验证明即便随着模型规模的增加,易用性显著提升,但仍需努力建立足够用户友好的模型。
Jun, 2024
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
该论文提出了一种新的基准语料库,用于衡量统计语言建模的进展,探讨了多种语言模型的性能表现,通过使用长短时记忆模型,降低模型复杂度来改善模型性能,实现了对语言模型的快速评估,并提出了相应的语言模型技巧,解决了语言建模中存在的困难。
Dec, 2013
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024