Fennec：通过分支与桥接扩展的细粒度语言模型评估和校正

May, 2024

Fennec：通过分支与桥接扩展的细粒度语言模型评估和校正

Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging

Xiaobo Liang, Haoke Zhang, Helan hu, Juntao Li, Jun Xu...

TL;DR利用开源大型语言模型作为评估器的评估框架 Fennec 扩展了细粒度纠正能力，通过多方面切分和融合不同训练数据集，提高了回应质量，在 MT-Bench 上实现 1-2 个点的改善。

Abstract

The rapid advancement of large language models has given rise to a plethora of applications across a myriad of real-world tasks, mainly centered on aligning with human intent. However, the complexities inherent in human intent necessitate a dependence on labor-intensive and time-consum

large language models evaluators evaluation framework fine-grained correction capabilities mt-bench

发现论文，激发创造

评估大型语言模型在生成准确教师回应方面的有效性

通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力，本研究旨在模拟一个有知识的老师的角色，并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性，测量标准是 BERTScore 和 DialogRPT，同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战，最终强调了对这些生成模型进行评估的需求，其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布，而且还依赖于模型展示教学技巧的能力。

Jul, 2023

爱丁堡临床自然语言处理在 SemEval-2024 任务 2 中：在没有使用 GPT-4 的情况下优化您的模型

通过合并使用三元组和语言建模目标单独进行微调的适配器，提出了一种用于改进大型语言模型（LLMs）一致性的 PEFT 方法。然而，与 GPT-4 相比，我们的新方法在忠实度和一致性方面没有产生更准确的结果。综合三个度量指标，GPT-4 在比赛中以 0.8328 的分数并列第一。最后，通过与 GPT-4 的污染分析，表明没有测试数据泄露。

Mar, 2024

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

Hints-In-Browser：针对编程反馈生成的语言模型基准测试

通过在浏览器中进行推理的新范式，基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示，本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准，展示了与浏览器推理引擎兼容的小型模型的反馈质量提升，并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性，同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。

Jun, 2024

大型语言模型是语法错误修正的最先进评估器

研究发现大型语言模型（LLMs）在语法错误纠正（GEC）评估中表现优异，特别强调了流畅度作为评估标准的重要性。

Mar, 2024

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

超越英语：评估用于阿拉伯文语法错误纠正的 LLMs

对于阿拉伯语的语法错误纠正任务，研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果，但是无论规模大小，指令微调模型的性能仍然不及完全微调的模型，此差距指出了语言模型改进的空间。同时，借鉴低资源机器翻译方法，利用合成数据也能显著提升阿拉伯语语法错误纠正的性能，在两个标准阿拉伯语数据集上创造了新的最佳结果，分别达到 73.29 和 73.26 的 F1 分数，相比于同行评审发表的基准模型。

Dec, 2023

Prometheus: 语言模型细粒度评估能力的引入

通过建立 Feedback Collection 数据集，使用 Prometheus 这一开源 LLM 评估模型，我们可以有效地根据用户提供的评分标准来评估任何长篇文本，其得分与人类评估员的相关性达到了 0.897，与 GPT-4 相当，并且明显优于 ChatGPT (0.392)。

Oct, 2023

ChatGPT 对阿拉伯语语法错误修正

近期，将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力，但在语法错误纠正任务中，特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力，该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明，各种提示方法与（上下文中的）少样本学习相结合，具有明显的效果，GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49（比我们建立的基线高出约 5 个点），这凸显了语言模型在低资源环境中的潜力，为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果，我们发现无论大小如何，fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型，这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发，我们还开发了一种利用合成数据的方法，该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果，分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。

Aug, 2023