LLMCRIT: 教授大型语言模型使用准则
我们提出了一个基于大型语言模型的评分系统,包括开发评分标准,提供准确一致的得分和定制化反馈,以及进行后评估,并在新的数据集上进行了广泛实验,验证了我们的方法的有效性。
May, 2024
这项研究探索了大语言模型的批判能力,并开发了一个评估框架来评估模型的能力,发现批判一般对大多数模型来说都很具有挑战性,而自我批判尤其困难。研究还介绍了一种名为自我检查的简单而有效的基准方法,以提高各种模型的任务表现。希望这项研究能为理解大语言模型的批判能力提供初步的探索,并在促进未来研究和更好地应用批判于不同任务方面发挥指导作用。
Oct, 2023
本文通过三种场景下的评估:1)不提供指导,2)使用预先规定的评分标准,3)通过论文的两两对比,与实际学生论文一起使用大语言模型(LLM)进行评估,以降低教师的工作量。定量分析结果显示,使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性,尽管存在有关评估质量和稳定性的担忧。因此,对 LLM 的评估意见进行了定性分析,结果表明:1)LLM 可以达到教师的评估能力,2)LLM 评估中的差异应解释为多样性而非混乱,3)人类和 LLM 的评估可以不同且相互补充。综上所述,本文建议将 LLM 视为教师评估委员会的合作伙伴,并为进一步研究提供了方向。
May, 2024
该论文介绍了一种称为 CRITIC 的框架,旨在通过外部反馈来提高大型语言模型的性能和自我完善能力,具体包括对问题回答、代码合成和削减有害内容等方面的基准测试,而这种框架的作用类似于人类交互工具的方式。
May, 2023
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM 有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
本文介绍了利用大型语言模型进行自然语言批判的方法,帮助人们更有效地检测摘要中的问题,并着重研究了批判能力的缩放特性和与生成能力和辨别能力的比较,为机器学习系统的监督提供了 AI 辅助人类反馈的概念证明。
Jun, 2022
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了 ChatGPT 的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
借助大型语言模型(LLMs)等新的自然语言处理技术,自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明,前述三个因素确实影响了被测试 LLMs 的性能,并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法,在预测性能、计算效率和一致性方面取得良好平衡。
Jun, 2024
人类反馈强化学习受到人类正确评估模型输出能力的限制。为了提高人类评估能力并克服这一限制,本研究训练了 “评论家” 模型,帮助人类更准确地评估模型生成的代码。这些评论家是通过强化学习从人类反馈训练的语言模型,用于指出真实世界助手任务中代码中的问题。在含有自然发生的语言模型错误的代码中,63% 的情况下优先选择模型生成的评论,而人工评估发现模型比人类承包商在代码审核中能找到更多的错误。我们进一步验证了我们微调的语言模型评论家能够成功地在被评为 “无瑕疵” 的 ChatGPT 训练数据中识别出数百个错误,尽管绝大多数任务是非代码任务,因此对评论家模型来说是非分布的。评论家也可能存在其自身的局限性,包括产生错误的问题,可能会误导人类错误地做出本来可以避免的错误,但是人机评论家与承包商团队能够发现与仅使用语言模型评论相似数量的错误,并且比仅使用语言模型时产生更少的错误。
Jun, 2024