Feb, 2024

FIPO:使用偏好数据集和模块化微调架构的自由指令导向提示优化

TL;DR大规模语言模型中的自由形式指导导向的提示优化(FIPO)通过模块化微调模式,灵活集成原始任务指令、可选指令响应和可选的目标以生成优化的任务提示。通过使用 Tulu2 模型和微调策略验证 FIPO 模式在五个公共基线上的有效性。