Fennec:通过分支与桥接扩展的细粒度语言模型评估和校正
通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力,本研究旨在模拟一个有知识的老师的角色,并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性,测量标准是 BERTScore 和 DialogRPT,同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战,最终强调了对这些生成模型进行评估的需求,其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布,而且还依赖于模型展示教学技巧的能力。
Jul, 2023
通过合并使用三元组和语言建模目标单独进行微调的适配器,提出了一种用于改进大型语言模型(LLMs)一致性的 PEFT 方法。然而,与 GPT-4 相比,我们的新方法在忠实度和一致性方面没有产生更准确的结果。综合三个度量指标,GPT-4 在比赛中以 0.8328 的分数并列第一。最后,通过与 GPT-4 的污染分析,表明没有测试数据泄露。
Mar, 2024
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
使用大型语言模型和一种具有连续思考特点的填充范式,提出了一种 NLG 质量评估框架,结合两种生成任务 —— 文本摘要和对话生成,使用 GPT-4 模型作为骨干模型,与以往方法相比性能更好。
Mar, 2023
通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升,并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性,同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。
Jun, 2024
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
对于阿拉伯语的语法错误纠正任务,研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果,但是无论规模大小,指令微调模型的性能仍然不及完全微调的模型,此差距指出了语言模型改进的空间。同时,借鉴低资源机器翻译方法,利用合成数据也能显著提升阿拉伯语语法错误纠正的性能, 在两个标准阿拉伯语数据集上创造了新的最佳结果,分别达到 73.29 和 73.26 的 F1 分数,相比于同行评审发表的基准模型。
Dec, 2023
通过建立 Feedback Collection 数据集,使用 Prometheus 这一开源 LLM 评估模型,我们可以有效地根据用户提供的评分标准来评估任何长篇文本,其得分与人类评估员的相关性达到了 0.897,与 GPT-4 相当,并且明显优于 ChatGPT (0.392)。
Oct, 2023
近期,将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力,但在语法错误纠正任务中,特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力,该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明,各种提示方法与(上下文中的)少样本学习相结合,具有明显的效果,GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49(比我们建立的基线高出约 5 个点),这凸显了语言模型在低资源环境中的潜力,为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果,我们发现无论大小如何,fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型,这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发,我们还开发了一种利用合成数据的方法,该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果,分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。
Aug, 2023