Dec, 2022
APOLLO: 一种优化的长文数值推理训练方法
APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
Jiashuo Sun, Hang Zhang, Chen Lin, Yeyun Gong, Jian Guo...
TL;DR提出了 APOLLO 来改进长格式数字推理框架,采用数值感知负采样策略来使检索器对关键数字事实更具有区分度,并基于程序执行结果的一致性设计了一致性强化学习和目标程序增强策略,实验结果验证了其有效性。