TinyGSM: 使用小型语言模型在 GSM8k 上达到 80% 以上
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K,表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能,提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。
Oct, 2021
Orca-Math 是一个基于 Mistral-7B 的 70 亿参数 SLM,它能够在 GSM8k 上达到 86.81% 的准确率,无需多次调用模型或使用验证器、代码执行或其他外部工具。
Feb, 2024
本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法,该数据集使用 GPT-3.5 和 GPT-4 生成,只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型,并引入新的评估范式来评估这些模型的语言能力和多维度的得分,例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究,并提高对于语言模型能力的认识。
May, 2023
LLaMA-2 7B 模型通过简单的方法扩展数据样本,证明了其出色的数学能力及可靠性,适用于 GSM8K 和 MATH 基准测试,并提供了关于不同推理复杂性和错误类型的扩展行为的见解。
Mar, 2024
该研究通过将文本输入转换为包含任务描述的填空问题,并结合梯度优化和利用未标记数据,成功地创造了小型语言模型,达到了与 GPT-3 相似的性能,为小型语言模型的成功应用提供了关键因素。
Sep, 2020
大型语言模型可以准确执行包括多位数字乘法、小数和分数在内的算术运算,并且能够在无数据泄露情况下实现几乎 100% 的准确度,超越了 GPT-4。此外,我们通过在包含多步骤算术运算和文本描述的数据集上对 GLM-10B 进行微调,开发出的 MathGLM 在 5000 个样本的中文数学问题测试集上展现了与 GPT-4 相似的性能。
Sep, 2023
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
本文探讨如何在较小模型的规模下,通过几何引导的自监督学习方法进行任务感知的自监督数据调整,实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small(80M)能够达到 T5-XL(3B)的竞争零样本结果,并开发了一个多任务模型 mgo-T5(250M),达到九个数据集的 OPT(175B)的平均性能。
Dec, 2022