Jun, 2024

大型语言模型的对抗性矩匹配蒸馏

TL;DR通过匹配教师行为的行动 - 价值矩关系,我们提出了一种对大型语言模型进行知识蒸馏的模仿学习策略,使用对抗训练算法来同时估计行动 - 价值矩距离并优化学生模型的政策,以此最小化距离,并在任务无关和任务特定实验中取得了新的最优性能。