Prometheus: 语言模型细粒度评估能力的引入
通过引入更强大的评估语言模型 Prometheus 2,我们解决了存在于开源评估语言模型中的问题,并达到了与人类和专有语言模型评价最高一致性和相似性的结果。
May, 2024
我们提出了一种用于评估 Vision-Language Models(VLMs)的新方法,使用了一个名为 Perception Collection 的反馈数据集,并通过该数据集训练了一个开源的 VLM 评估模型 Prometheus-Vision,该模型在评估 VLMs 时表现出与人类评估者和 GPT-4V 最高的皮尔逊相关性,显示出其对 VLMs 的透明和可访问性评估的有效性。
Jan, 2024
通过使用 GPT-4 对多个开源语言模型的反馈进行评估,本研究探讨了大型语言模型在教育领域中生成反馈的质量,并发现一些模型在性能上可以与专有的语言模型竞争,从而为其在教学环境中的负责任使用提供机会。
May, 2024
本文发现了采用大型语言模型(LLMs)作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验,这种方法成功缓解了评估偏差,与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究,作者将文章中的技术集成到一个易于使用的工具包 FairEval 中,同时结合了人工注释。
May, 2023
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
利用大型语言模型,本研究引入了两种机制,即生成式同伴预测机制(GPPM)和生成式简介同伴预测机制(GSPPM),以扩大同伴预测机制的应用范围至基于文本的报告,并理论上证明当语言模型预测足够准确时,该机制能够激励高质量的反馈。在实证研究中使用了 Yelp 评论数据集和 ICLR OpenReview 数据集,结果表明在 ICLR 数据集上,该机制能够根据期望得分区分人工编写的评论、GPT-4 生成的评论和 GPT-3.5 生成的评论,并且 GSPPM 比 GPPM 更有效地惩罚产生自语言模型的评论。
May, 2024
通过同行评审机制,我们提出了一种能够自动评估大型语言模型的新框架,用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验,结果表明使用单一语言模型评估存在偏见,并证明了我们的同行评审机制的有效性。
Jan, 2024
通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升,并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性,同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。
Jun, 2024