Oct, 2023

在 LLMs 中平衡专业和通用技能:现代调谐和数据策略的影响

TL;DR介绍了用于微调和评估大型语言模型(LLMs)用于专门的货币化任务的多方面方法论,目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分:1)在微调过程中精心混合领域内和通用数据,以实现一般能力和专业能力之间的最佳平衡;2)设计全面的评估框架,包含 45 个问题,旨在评估在功能相关维度(如可靠性、一致性和商业影响)上的表现;3)分析模型大小和持续训练对度量指标的影响,以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果,旨在为企业和研究人员提供行动洞察,以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架,其中包括 45 个量身定制的问题及其相应的评分指南,以促进 LLMs 在专门任务上的透明度与合作。