借助 LLMs 促进整体评估:基于情景实验的见解
本文通过三种场景下的评估:1)不提供指导,2)使用预先规定的评分标准,3)通过论文的两两对比,与实际学生论文一起使用大语言模型(LLM)进行评估,以降低教师的工作量。定量分析结果显示,使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性,尽管存在有关评估质量和稳定性的担忧。因此,对 LLM 的评估意见进行了定性分析,结果表明:1)LLM 可以达到教师的评估能力,2)LLM 评估中的差异应解释为多样性而非混乱,3)人类和 LLM 的评估可以不同且相互补充。综上所述,本文建议将 LLM 视为教师评估委员会的合作伙伴,并为进一步研究提供了方向。
May, 2024
通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力,采用三阶段的 LLM 讨论框架,引入角色扮演技术,实现了创造性答案的多样性、多维度的交流,通过多项创造力度量指标超越了现有的单一和多个 LLM 框架。
May, 2024
该研究介绍了一种自动评估框架,评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力,通过重构来自美国医疗执照考试的医学多项选择题,提出了一个基准测试集,并开发了综合评估指标。研究结果表明,使用培训集对大型语言模型进行微调,可以减轻幻觉并提高其在所提出基准上的性能。
Sep, 2023
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性,超过了其他评估方法,在 LLM 评估领域树立了新的标准。
Nov, 2023
通过应用 ANOVA、Tukey HSD 测试、GAMM 和聚类技术,本研究对 LLMs 进行了彻底重新审视,针对当前评估方法中的不足之处。我们的研究利用了大量的评估结果数据集,引入了全面的统计方法,为解析 LLM 性能数据提供了一个强大而透明的方法。与先前的研究结果相反,我们的结果挑战了关于新兴能力以及给定训练类型和架构在 LLMs 中的影响的假设。本研究对 LLM 的性能和潜力提供了一个细致入微的视角,通过提供简单可靠的方法来审查和重新评估 LLM 的性能数据。
Mar, 2024
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval 能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编 Torrance 创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等 4 个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
目前的大型语言模型在实际应用于医学领域中的任务时,存在显著的实际效果与报道性能之间的差距,这篇论文通过多方面的评估方法发现当前大型语言模型在医学知识的掌握方面缺乏深度、准确性和全面性,因此尚不适用于真实医学任务。
Jun, 2024
该研究通过一个深入的案例研究,评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略,交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论,并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。
Nov, 2023