May, 2023

RetICL: 采用强化学习的上下文顺序检索示例

TL;DR本研究提出了 Retrieval for In-Context Learning (RetICL),一种可学习的方法,用于模拟和最佳选择逐个该如何为 in-context learning 选择任务例子。它将顺序示例选择问题作为马尔可夫决策过程,使用 LSTM 设计示例检索器模型,并使用 PPO 进行训练。我们在数学问题求解数据集上验证了 RetICL,表明它优于启发式和可学习的基线,并在 TabMWP 数据集上实现了最先进的准确性。我们还使用案例研究展示了 RetICL 隐含学习了数学问题求解策略的表示方式。