锚点:以更少示例度量模型
了解基于 Transformer 的语言模型对于推进人工智能通用性至关重要,而学术研究团队面临着复杂的数据结构、未知的目标函数、高计算成本和内存需求以及推理过程缺乏可解释性等重大挑战。本文引入锚函数的概念,为研究遵循 “锚 - 键” 模式的学习任务中语言模型设计了一种基准函数,从而构建了一系列模拟各种语言任务的函数。通过示例展示了锚函数的实用性,并揭示了语言模型中注意力结构的两个基本操作:标记位移和一个标记从一个位置广播到多个位置。因此,锚函数框架为进一步探索有价值且易于研究的问题开启了研究空间,尤其是理论研究方面。
Jan, 2024
近年来,在大型语言模型的发展方面取得了重大进展,达到了在各种任务中的显著表现。为了评估语言模型的知识能力,先前的研究提出了许多基于问答对的基准。我们认为,使用固定问题或有限的改写作为查询来评估语言模型的可靠性和全面性是不可靠的,因为语言模型对提示敏感。因此,我们引入了一个名为知识边界的新概念,用于涵盖语言模型中的提示不可知和提示敏感的知识。知识边界避免了语言模型评估中的提示敏感性,使其更可靠和稳健。为了探索给定模型的知识边界,我们提出了具有语义约束的投影梯度下降方法,这是一种新的算法,旨在识别每个知识片段的最佳提示。实验证明我们的算法在计算知识边界方面比现有方法表现出更高的性能。此外,我们还通过知识边界评估了多个语言模型在几个领域中的能力。
Feb, 2024
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
通过在小数据集上评估语言模型的上下文学习分类性能,我们引入了更强的随机基准:在多个随机分类器中的预期最大准确性。这个更强的随机基准在选择最佳提示演示时,超过标准基准的少量结果有超过 20% 无法超过。当有保留的测试集可用时,这个更强的基准也是保留性能的更好预测,避免不必要的测试集评估。
Apr, 2024
本文研究了深度神经网络中不平衡分类和嘈音容忍性,并提出了一种名为原型锚定学习(PAL)的方法,将其纳入各种学习分类方案中,以应对不完美的注释。
Jun, 2022
通过研究 LLM 在各种关键基准测试中的表现,我们探索了减少 LLM 性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
Feb, 2024
提出了一种新的 NLP 注释范例,通过创建对照集,意在消除测试数据中的系统性差距,从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。
Apr, 2020
该研究论文讨论预训练的语言模型在少量数据情况下完成自然语言处理任务的表现,提出了一种新的用于测量模型在真实世界中应用的少量样本任务的基准测试 RAFT,这个基准测试展示了当前技术存在的困难和挑战,虽然一些分类任务对于普通人来说也很困难,但普通人在这些任务上的表现超过了 GPT-3 模型。
Sep, 2021
在资源匮乏的情景下,我们评估了早期学习曲线估计作为选择在非深度学习者应用的最适模型的实用机制,以提高性能并控制成本。使用西伊比利亚 - 罗曼斯语族中的加利西亚语作为案例研究,实验结果与我们的预期一致。
Feb, 2024