Jun, 2024

大型语言模型是否总能解决简单问题,如果它们能解决更困难的呢?

TL;DR研究中提出了 ConsisEval 基准,用于量化大型语言模型的一致性,并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明,尽管 GPT-4 的一致性得分最高,但仍然对特定问题存在不一致性,这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性,但也存在例外情况,并且硬数据能够提高微调和上下文学习的一致性。