批次通用预测
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究,发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测,并提出了寻找一个信息性子集用于评估新模型家族的问题,整合了 BIG-bench Hard 的信息,并将规模缩小了三倍。
May, 2023
使用概率恒等式和重复判断来评估自回归大型语言模型的概率判断的连贯性,结果显示这些模型产生的判断通常是不连贯的,并显示出与概率理论规则相悖的人类式系统偏差;此外,当被提示对同一事件进行判断时,自回归大型语言模型产生的概率判断的均值 - 方差关系呈现出人类类似的倒 U 型关系;我们提出这些违背理性的偏差可以通过将自回归大型语言模型与隐式贝叶斯推断联系起来,并与人类概率判断的贝叶斯采样模型进行类比来解释。
Jan, 2024
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准。
May, 2024
大型语言模型在时间序列预测方面具有明显的优势和限制,尤其在具备明确模式和趋势的数据上,LLMs 表现出色,但在缺乏周期性的数据集上面临挑战。研究发现,引入外部知识和采用自然语言改写有利于提升 LLMs 在时间序列预测中的预测性能。
Feb, 2024
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024
本研究通过比较人类专家与大型语言模型(LLMs)之间在零售行业中标准销售期和促销销售期的预测准确性,利用 123 位人类预测者和 5 个 LLMs(包括 ChatGPT4、ChatGPT3.5、Bard、Bing 和 Llama2),通过平均绝对百分比误差评估预测精度。我们的分析集中于以下因素对预测者表现的影响:支持的统计模型(基线和高级)、产品是否促销以及外部影响的性质。研究结果表明,LLMs 在预测准确性上并不一致地胜过人类,并且高级统计预测模型并不一致地提升人类预测者或 LLMs 的性能。无论是人类预测者还是 LLM 预测者,在促销期间和受到积极外部影响的影响下,都表现出更高的预测误差。我们的研究结果要求在将 LLMs 纳入实际预测过程时需要谨慎考虑。
Dec, 2023
人们使用大型语言模型的目的,以及这些模型的部署决策、人类泛化功能的一致性,以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。
Jun, 2024