大型语言模型作为通用模式机
本文探讨了预训练大型语言模型(LLMs)的能力,以及它们在知识跟踪、智能辅导系统领域的应用,研究了两种使用 LLMs 进行知识跟踪的方法,并对其在实际数据集上的性能进行了评估,结果表明 LLMs 能够模拟复杂的学习轨迹,为将 LLMs 应用于教育环境开辟了新的途径。
Feb, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
大型语言模型(LLMs)已经显示出在机器人方面作为高级规划器的潜力,但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设,研究了当 LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现,比如 “打开瓶盖” 和 “用海绵擦拭盘子”,并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制,首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力,并且它们还可以检测到失败并相应地重新规划轨迹。
Oct, 2023
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
预训练的大型语言模型(LLMs)在进行零 - shot 任务(包括时间序列预测)时表现出惊人的效果,本文研究了 LLMs 在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示 LLaMA2 在无需微调或提示工程的情况下能准确预测动力系统时间序列,此外,学习到的物理规律的准确性随输入环境窗口长度的增加而增加,揭示了一种上下文版本的神经缩放定律,并提出了一种灵活高效的算法,可直接从 LLMs 中提取多位数的概率密度函数。
Feb, 2024
大型语言模型(LLMs)是自我监督的预训练模型,可适应广泛的自然语言任务,但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性,即它们表现出的智能实际上是镜像了面试官的智能,它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法,以实现人工智能的普遍自主权。
Jul, 2022
通过使用嵌入式算法来扩展预训练语言模型的能力,作者提出了一种证据支持的问答方法来展示这种方法的优势,相比于传统的 fine-tuning 方法,该方法获得了 6.4%的改进。
May, 2023