使用 500 个任务评估预训练语言模型的适应能力
研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究,发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测,并提出了寻找一个信息性子集用于评估新模型家族的问题,整合了 BIG-bench Hard 的信息,并将规模缩小了三倍。
May, 2023
本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效,通过在三大问题领域(文本分类、问题回答、序列标注)的 33 个 NLP 任务上的数据验证,结果显示 transfer learning 在数据稀缺情况下更为有效,在源任务数据较少或与目标任务差异较大的情况下仍能提高性能,同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入,并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。
May, 2020
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍 NormAd 数据集评估 LLMs 在不同社会文化情境中适应性的表现。研究发现 LLMs 在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs 在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了 LLMs 的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
通过使用未标记的测试数据,我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案,然后在过滤掉低质量样本的同时将它们集成在一起,以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进,对于多样的提示更具鲁棒性,使语言模型保持稳定。
Oct, 2023
本文讨论使用预训练语言模型在自然语言处理中进行主动学习时存在的问题,并提出了使用先前所有的未标注数据来适应目标任务的解决方法,同时也提出了一种简单有效的微调方法来保证适应的语言模型在低资源和高资源情况下都能得到适当的训练,实验结果表明,相比标准的微调方法,我们的方法提供了显著的数据效率改进,这表明一个不良的训练策略可能对主动学习产生灾难性的影响。
Apr, 2021
从文本推理的能力对于现实世界的自然语言处理应用至关重要。现实场景通常涉及不完整或不断演化的数据,在这种情况下,个体会相应地更新其信念和理解。然而,大多数现有评估假设语言模型在处理一致信息时运行,我们引入了 Belief-R,这是一个新的数据集,旨在测试语言模型在面对新证据时的信念修订能力。受人类抑制先前推理的启发,该任务在新提出的 delta reasoning($ΔR$)框架内评估语言模型。Belief-R 包含一系列前提,旨在模拟额外信息可能需要语言模型绘制的先前结论的情况。我们对约 30 个不同提示策略的语言模型进行评估,发现语言模型通常在适当修订其信念以响应新信息方面存在困难。此外,擅长更新的模型在没有必要更新的情况下通常表现不佳,凸显了一种关键权衡。这些洞见强调了提高语言模型对变化信息的适应能力的重要性,这是朝着更可靠的人工智能系统迈出的一步。
Jun, 2024
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
提出了一种方法,基于手写语法直接估计 n-gram 数量和使用约束优化来适应新应用意图,同时不降低过去应用的性能,使用该方法在私人助手系统中对新应用意图进行了评估,发现即使对于没有此类应用程序的适应数据,适应可以将单词错误率提高 15%。
Dec, 2018