BriefGPT.xyz
大模型
Ask
alpha
关键词
big-bench
搜索结果 - 4
语言模型基准测试的可预测性如何?
通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现,我们发现平均基准性能相当可预测,尽管在特定任务中的性能预测具有挑战性,因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。
PDF
6 months ago
大型语言模型能力的可预测性研究 —— 以 BIG-bench 为例
研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究,发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测,并提出了寻找一个信息性子集用于评估新模型家族的问题,整合了 BIG-bench
→
PDF
a year ago
挑战 BIG-Bench 任务及连贯思维是否能解决它们
评估语言模型的任务套件 BIG-Bench 在多步推理方面的表现,通过应用 “chain-of-thought” 提示,可以提高模型性能,证明多数任务要求此类提示以获得更好的性能,并且此提示与模型规模具有交互作用。
PDF
2 years ago
超越模仿游戏:量化和推断语言模型的能力
通过引入 Beyond the Imitation Game 基准测试(BIG-bench),我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现,发现规模越大,其表现和校准也越好,但与人类专家相比还是很差,同时也发现在歧义上
→
PDF
2 years ago
Prev
Next