BriefGPT.xyz
Ask
alpha
关键词
scaling behaviors
搜索结果 - 4
数据混合的高效实现:语言模型预训练的双变量缩放法
本研究提出了一种统一的缩放定律 BiMix,准确地模拟了数据数量和混合比例的双变量缩放行为,通过使用低成本的代理策略优化数据筛选,以提高训练效率。实验证据表明,基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能
→
PDF
a month ago
基于 PPO 的 RLHF 的 N + 实现细节:TL;DR 摘要的案例研究
本研究首次公开复现了 OpenAI 的研究成果中提到的强化学习从人类反馈中进行总结的可扩展行为。我们从头开始创建了一个强化学习从人类反馈的流水线,列举了 20 多个关键的实施细节,并在复现过程中分享了关键见解。我们训练的 Pythia 模型
→
PDF
3 months ago
将红队化的语言模型减少危害:方法、扩展行为与经验教训
本文介绍了对语言模型进行红队测试的早期探索,尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现,随着模型规模的扩大,使用人类反馈进行强化学习的模型难以被红队攻击,并提供数据集和方法说明以便进行共同探讨。
PDF
2 years ago
路由语言模型的统一缩放定律
本文研究了条件性只使用其部分参数的 Routing Networks 的扩展性行为,并基于这两个变量推导和证明了一个广义的标准语言模型已知的扩展定律。研究表明其性能通常符合其参数计数的幂律分布,且其参数计数和计算要求形成两个独立的轴线。此外
→
PDF
2 years ago
Prev
Next