Nov, 2024

关键令牌的重要性:令牌级对比估计提升大语言模型的推理能力

TL;DR本研究解决了大语言模型在推理任务中面临的关键令牌识别问题,通过引入cDPO方法,自动识别并给予关键令牌奖励。研究发现,识别并调整这些关键令牌能够显著提高模型的推理正确性,具有重要的应用潜力。