Apr, 2025
推动自然语言推理的边界
Pushing the boundary on Natural Language Inference
TL;DR本研究针对当前自然语言推理(NLI)系统依赖有偏注释数据的问题,提出了一种基于强化学习的方法,通过群体相对策略优化(GRPO)进行链式思考(CoT)学习,消除对标注推理的需求,并支持在更具挑战性的数据集上进行训练。研究表明,经过微调的32B AWQ量化模型在多项对抗性NLI基准上超越了最先进的结果,证明了在激进量化条件下仍能保持强大的推理能力。