通过模型特征评估对话游戏自对话性能所需参数数量

Jun, 2024

通过模型特征评估对话游戏自对话性能所需参数数量

How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics

PDF

Nidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen

TL;DR大型语言模型的好坏取决于其在相关基准测试上的表现，其性能由模型特征（如参数数量、训练方法等）以及训练参数（如微调数据质量等）决定。此外，性能在一定大小范围内表现出广泛变化，受采样参数和推理过程中适度的权重量化影响不确定性较大。

Abstract

What makes a good large language model (LLM)? That it performs well on the relevant benchmarks -- which hopefully measure, with some validity, the presence of capabilities that are also challenged in real applica

large language model benchmark capabilities performance training parameters

发现论文，激发创造

大规模生成语言模型是否需要数十亿参数？

这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡，旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法，从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

Sep, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

中大型语言模型零样本闭卷生成问答的评估

本文研究中等规模的语言模型在零 - shot 生成问答方面的性能，评估结果表明最佳模型的回答率可达 46.4％，使用适当的训练数据进行微调比仅仅依靠参数数量更为重要。

May, 2023

超越模仿游戏：量化和推断语言模型的能力

通过引入 Beyond the Imitation Game 基准测试（BIG-bench），我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

现实环境中的语言与计算机环境中的语言：尽管模型规模更大但仍无法像人类一样理解语言

通过对三种不同模型的测试（Bard、ChatGPT-3.5 和 ChatGPT-4）以及与人类结果的比较，研究了模型大小对于语言模型性能的影响，发现模型大小的增加可以提高性能，但语言模型仍不如人类敏感。

Apr, 2024

LLM 决策能力的敏感性探究：来自提示变异和超参数的洞察

大型语言模型在决策任务中的表现与输入提示和超参数有关，并显示出与人类相似的探索和开发权衡。

Dec, 2023

大型语言模型符合人们的期待吗？测量人类的普适能力函数

人们使用大型语言模型的目的，以及这些模型的部署决策、人类泛化功能的一致性，以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。

Jun, 2024

大型语言模型八大要点

该论文调查了大型语言模型的八个潜在问题，包括其预测能力的增强，不可预测的行为的出现，对外部世界的学习和使用表示，行为引导技术的不可靠性，内部工作方式的解释困难性，性能上界不是人类任务表现，不一定表达其创建者或网络文本编码的价值观，与 LLMs 的简短交往经常是误导性的。

Apr, 2023

分析大型语言模型在课堂讨论评估中的应用

借助大型语言模型（LLMs）等新的自然语言处理技术，自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明，前述三个因素确实影响了被测试 LLMs 的性能，并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法，在预测性能、计算效率和一致性方面取得良好平衡。

Jun, 2024