PrExMe!大规模探索开源 LLM 用于机器翻译和摘要评估
介绍了 Eval4NLP 2023 共享任务,要求参与者在机器翻译和摘要评估中探索提示和分数提取,并评估了参与者的方法。在没有 fine-tuning 的限制下,最佳系统的表现与使用更大模型开发的最新的无参考度量标准(包括 GEMBA 和 Comet-Kiwi-XXL)相媲美甚至超过,并对 LLMs 的解释的可行性进行了小规模人类评估。
Oct, 2023
通过分析提示策略、评分聚合和解释性等多个方面,本研究探索了基于开源大型语言模型(LLMs)的度量方法在自然语言生成品质评估中的潜力,并提供了有关开源 LLMs 评估能力的实验结果和有效的提示策略。
Nov, 2023
本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了 LLMs 在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。
Nov, 2023
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
我们使用 SUMMEVAL-OP 数据集评估意见摘要,使用大型语言模型作为参考自由指标,发现 Op-I-Prompt 是评估意见摘要的良好替代方法,与人类判断的平均斯皮尔曼相关性达到 0.70,超过了以前的所有方法。这是我们在意见摘要领域首次探索使用开源和闭源模型的大型语言模型作为评估器。
Feb, 2024
本论文介绍了 PromptEval 方法,用于在实践评估预算下估计许多提示变体的性能分布,并证明其一致地估计了性能分布,在三个著名的 LLM 基准测试中取得了实证效果。
May, 2024
利用翻译记忆作为提示是一种有前途的机器翻译模型上下文学习方法,本文通过使用大型语言模型进行提示,发现 LLM 的‘理解’提示的能力确实有助于更好地利用 TMs,并通过实验证明,使用高质量的 TM 提示可以大大改善预先训练的 LLM 翻译器的结果,甚至可以与最新状态下大规模领域内双语数据和针对下游任务进行调整的 NMT 系统的结果相媲美。
May, 2023
通过研究生成式大型语言模型在机器翻译中的性能,我们发现多语言模型(如 PaLM)在人工翻译输出方面表现出类似人类的水平,能够根据样式指南和语言要求优化所需的翻译细微差别,并在处理和应用提示上表现出色。我们还针对流行的语言模型作为机器翻译工具的错误和限制进行了分类和提出了设计提示进行上下文学习的方法。通过改进评估指标的准确性和可靠性,我们的研究旨在促进生成式大型语言模型在机器翻译中的进步。
Jan, 2024
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。
Dec, 2023