Nov, 2024
自我训练与一致性相结合:通过一致性驱动的推理评估提升大型语言模型的推理能力
Self-Training Meets Consistency: Improving LLMs' Reasoning With
Consistency-Driven Rationale Evaluation
TL;DR本研究针对大型语言模型自我训练中推理能力提升面临的合理性评估不足的问题,提出了一种新的框架CREST。该框架通过后续问题评估每个合理性,并通过过滤不合适的合理性和基于评估结果的偏好学习,显著提高了推理的逻辑稳健性和准确性。