对大型语言模型在受控生成任务中的评估
通过细调用于现有数据的多控制调优方法,本文提出一种能够精确控制大语言模型输出的多个语言复杂性的方法。实验证明该方法不仅显著改善了大语言模型的多复杂性可控性,还保持甚至提升了响应质量。
Jun, 2024
研究大型语言模型在科学摘要任务上的可控性问题,通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类,同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性,从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而,研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要,且在生成高度抽象的通俗摘要方面存在有限能力,因此在领域特定应用中,仍然存在着需要昂贵微调才能解决的问题。
Jan, 2024
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上,对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究,并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。
Jun, 2023
本文研究了大型语言模型的可控性和鲁棒性,并提出了一种新的知识感知微调方法(KAFT),可通过引入反事实和无关语境来增强模型的可控性和鲁棒性。该方法适用于各种模型构架和规模。
Nov, 2022
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
这篇论文研究了大型语言模型(LLMs)和它们经过微调后的变体之间的差异,尤其关注微调对 LLMs 内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验,研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为,并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究,旨在为 LLMs 的微调实践做出有价值的贡献。
Mar, 2024
大型语言模型(LLMs)在教育和学习应用中的使用不断增加。 研究表明,在控制风格以适应学习者需求的情况下,能够增加理解力,促进包容性,并有助于知识蒸馏。 为了了解当代 LLMs 在风格控制方面的能力和局限性,我们评估了五个最先进的模型:GPT-3.5,GPT-4,GPT-4o,Llama-3 和 Mistral-instruct-7B。 我们观察到第一个任务存在显著的不一致性,模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间,标准偏差高达 27.6。 对于我们的第二个任务,我们观察到性能有了显著的提高,从 0.02 到 0.26。 然而,我们发现即使在参考文本中没有刻板印象的情况下,LLMs 在任务中经常生成文化上不敏感的内容。 我们提供了详细的结果分析和讨论。
Jun, 2024