Feb, 2024

学习降维:在大型语言模型中使用结构化数据的最佳表示

TL;DR使用 On-Policy 强化学习,我们提出了一个学习缩减的模型,旨在改进固定的大型语言模型的推理性能,在选择相关证据和处理长文本语境方面取得了良好的结果。