scaling model size | BriefGPT

关键词scaling model size

搜索结果 - 4

朝实用性工具使用的方向：为不断学习的 LLMs 而努力
大型语言模型具有解决语言相关任务的天赋，但由于它们静止于参数中的知识的局限性，存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持，但使用工具的 LLM 仍需适应不稳定的环境，并且需要学会使用预定义的
PDFa month ago
利用大型语言模型扩展句子嵌入
通过上下文学习，我们提出了一种基于上下文学习的方法，旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入，并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小，我们发现超过几十亿参数的模型会对语义文本相
PDF10 months ago
指令微调语言模型的扩展
本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和
PDF2 years ago
利用程序生成技术评估强化学习
Procgen Benchmark 是一套 16 个生成环境的测试套件，旨在评估强化学习在样本效率和泛化性能方面的表现，为此提供了详细的实验协议，并经验证明多样性的环境分布是充分训练和评估 RL agent 的关键，从而促进了生成内容的广泛
PDF4 years ago