BriefGPT.xyz
大模型
Ask
alpha
关键词
error identification
搜索结果 - 2
ACL
评估大型语言模型的数学推理能力:重点关注错误识别和纠正
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的 LLM 模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳,而开源模型 LLaMA-2-7B 的
→
PDF
a month ago
ReviewerGPT?使用大型语言模型进行论文审阅的初步研究
使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误,然而在挑选更好的论文时还存在一定误差。
PDF
a year ago
Prev
Next