BriefGPT.xyz
Ask
alpha
关键词
reasoning evaluation
搜索结果 - 3
评估数学推理能力的准确性以外的因素
通过有效性和冗余性评估推理质量,我们提出了 ReasonEval 方法,该方法在数学任务中表现优异,并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。
PDF
3 months ago
SocREval: 使用苏格拉底方法进行无参考推理评估的大型语言模型
利用 GPT-4 和苏格拉底方法,我们提出了一种新的基于 SocREval 的评估框架,能够自动评估当前模型的推理能力,并证明了该框架在消除人工参考链的情况下,显著提高了 GPT-4 的性能,超过了现有的基于参考和无参考的推理评估指标。同时
→
PDF
9 months ago
关于证据的一般价值和双语场景文本视觉问答
该研究提出了一个多语言数据集,旨在解决视觉问题回答方法的泛化问题,利用基于推理的度量方法来鼓励泛化,并通过提供实验证据表明数据集的价值。
PDF
4 years ago
Prev
Next