LLM 过程:基于自然语言的数值预测分布
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。
Feb, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
预训练的大型语言模型(LLMs)在进行零 - shot 任务(包括时间序列预测)时表现出惊人的效果,本文研究了 LLMs 在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示 LLaMA2 在无需微调或提示工程的情况下能准确预测动力系统时间序列,此外,学习到的物理规律的准确性随输入环境窗口长度的增加而增加,揭示了一种上下文版本的神经缩放定律,并提出了一种灵活高效的算法,可直接从 LLMs 中提取多位数的概率密度函数。
Feb, 2024
利用预训练的大型语言模型 (LLM) 对经典的监督机器学习方法进行增强,以应对分类问题,并提出了几种将 LLM 集成到经典机器学习估计器中的方法,从而进一步提高预测性能。通过标准的有监督学习二分类任务和数据分布发生变化的迁移学习任务,对所提出的方法进行了性能评估。通过对四个公开的数据集进行数值实验,结果表明利用 LLM 增强经典机器学习估计器可以显著提升预测性能。
May, 2024
评估语言模型在概率推理能力上的表现,并通过使用理想化和真实统计分布的方式进行系统评估,包括估计百分位数、生成样本和计算概率等三个任务。我们发现,语言模型通过对分布进行推断,并结合真实世界的背景、示例和简化假设等方式可以提高推理能力。我们还开发了一个全面的基准分布数据集和相关的问题答案对,将其公开发布。
Jun, 2024
大型语言模型在时间序列预测方面具有明显的优势和限制,尤其在具备明确模式和趋势的数据上,LLMs 表现出色,但在缺乏周期性的数据集上面临挑战。研究发现,引入外部知识和采用自然语言改写有利于提升 LLMs 在时间序列预测中的预测性能。
Feb, 2024
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
Feb, 2024
我们介绍了一个贝叶斯学习模型来理解大型语言模型的行为。我们探讨了大语言模型的优化指标,基于对下一个标记的预测,并开发了一个基于此原则的新颖模型。我们构建了一个理想的生成文本模型,通过具有先验信息的多项式过渡概率矩阵表示,并研究了大语言模型如何逼近该矩阵。我们讨论了嵌入和多项式分布之间的映射的连续性,并提出了狄利克雷逼近定理来近似任何先验。此外,我们展示了大型语言模型的文本生成如何符合贝叶斯学习原理,并深入探讨了其在上下文学习中的影响,特别是解释了为什么在更大的模型中,提示被视为要更新的样本。我们的研究结果表明,大型语言模型的行为与贝叶斯学习一致,为它们的功能和潜在应用提供了新的见解。
Feb, 2024
通过使用大型语言模型,将调查人员的专业见解转化为可量化的可操作要素,以提高模型性能,并展示了该方法在风险评估和决策准确性方面的显著改进。
May, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023