Dec, 2022

APOLLO: 一种优化的长文数值推理训练方法

TL;DR提出了 APOLLO 来改进长格式数字推理框架,采用数值感知负采样策略来使检索器对关键数字事实更具有区分度,并基于程序执行结果的一致性设计了一致性强化学习和目标程序增强策略,实验结果验证了其有效性。