BriefGPT.xyz
大模型
Ask
alpha
关键词
inverse scaling
搜索结果 - 6
通过上下文推断减轻语言模型中强先验问题
我们开发了一种新技术来减轻强偏好问题,通过将原始指令集产生一个弱化版本的提示并从弱化的提示中推断模型如何继续执行一个假设加强的指令集,我们将语言模型概念化为混合模型,并对 GPT-2、GPT-3、Llama 2 和 Mistral 等模型进
→
PDF
5 months ago
反比缩放:大不一定好
通过运行一个公共比赛,我们在 11 个数据集上提供了逆比例缩放的实证证据,并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律,但我们的结果表明,模型规模增加本身对某些任务可能不会产生进展,因此对于训练语言模
→
PDF
a year ago
ACL
大小不一定胜:语言模型无法识别 Python 中的标识符交换
本文表明大型语言模型在代码生成任务中表现出色,但在变量重命名等语言语义方面不及人类程序员,且存在反比例缩放现象。作者发现,尽管这些模型具有惊人的典型案例表现,它们仍然缺乏对所操作内容的深刻抽象理解,从而不适用于与其训练数据有明显偏差的任务,
→
PDF
a year ago
预训练过程中的逆比例缩放现象
研究对语言建模任务进行训练过程中,随着模型参数规模的增加,Pythia 模型在两项特定任务上的表现会下降,尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性,即使它们的整体表现有所提升。
PDF
a year ago
使用模型编写的评价方法发现语言模型行为
本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在
→
PDF
2 years ago
反比例缩放可能呈 U 形
本文研究了逆比例缩放任务,发现多数任务的表现呈现 “U 型缩放”,即随着模型大小的增加,性能先下降后上升,只有四个任务呈现逆比例缩放。研究表明,对于大型模型而言,先前观察到的精度下降趋势可能无法继续保持,并进一步支持大型模型会释放新的能力的
→
PDF
2 years ago
Prev
Next