2023 Eval4NLP 子任务: 使用促使大型语言模型作为解释性⽅法的度量

Oct, 2023

2023 Eval4NLP 子任务: 使用促使大型语言模型作为解释性⽅法的度量

The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics

Christoph Leiter, Juri Opitz, Daniel Deutsch, Yang Gao, Rotem Dror...

TL;DR介绍了Eval4NLP 2023共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有fine-tuning的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括GEMBA和Comet-Kiwi-XXL）相媲美甚至超过，并对LLMs的解释的可行性进行了小规模人类评估。

Abstract

With an increasing number of parameters and pre-training data, generative large language models (LLMs) have shown remarkable capabilities to solve tasks with minimal or no task-related examples. Notably, LLMs have been successfully employed as evaluation metrics in text generation task

发现论文，激发创造

误差分析提示使得大型语言模型的翻译评估类似于人类：以ChatGPT为例的案例研究

本文介绍了新的提示方法（Error Analysis Prompting）, 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能，并发现了一些其作为 MT 评估器的局限性，结果表明，使用 Error Analysis Prompting，ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。

Mar, 2023

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型PaLM和PaLM-2，通过简单的得分预测提示，发现AutoMQM在PaLM-2模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

评估指标在GPT-4时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

小巨人：探索小型LLMs作为Eval4NLP 2023共享任务摘要评估度量的潜力

本文描述和分析了我们参与2023 Eval4NLP共享任务的工作，该任务主要关注评估基于提示的技术对大型语言模型在质量估计任务中的有效性，特别是在评估机器翻译和摘要的背景下。我们进行了系统实验，尝试了各种提示技术，包括标准提示、基于注释人指示的提示和创新的思路链提示。此外，我们结合了零样本学习和一次性学习方法，以最大化我们的评估程序的效力。我们的工作表明，使用“小型”开源模型（orca_mini_v3_7B）结合这些方法可以取得具有竞争力的结果。

Nov, 2023

LLM型指标的提示策略探究

通过分析提示策略、评分聚合和解释性等多个方面，本研究探索了基于开源大型语言模型（LLMs）的度量方法在自然语言生成品质评估中的潜力，并提供了有关开源LLMs评估能力的实验结果和有效的提示策略。

Nov, 2023

探索使用提示的大型语言模型作为可解释的度量

本文描述了IUST NLP实验室在Eval4NLP 2023会议上提出的一种用于解释性评估的零样本基于提示的策略，该策略使用了大型语言模型（LLMs）来评估总结任务，并通过实验证明了LLMs在自然语言处理（NLP）中，特别是在总结领域具有良好的潜力。在这些实验中，使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了0.477。代码和结果可以在GitHub上公开获取。

Nov, 2023

PrExMe！大规模探索开源LLM用于机器翻译和摘要评估

LLM 和基于 LLM 的度量方法的稳定性和变异性，探索了不同提示策略影响机器翻译和摘要评估的研究，发现了最稳定的提示模式和潜在限制。

Jun, 2024

大型语言模型在机器翻译评估中需要什么？

本文探讨了大型语言模型（LLM）在机器翻译（MT）质量评估中所需的翻译信息，包括源文本、参考翻译、翻译错误和注释指南。研究发现，参考翻译在基于LLM的评估中至关重要，且CoT提示技术对大型模型的表现有更显著的提升作用。我们的工作为资源有限且无需训练的LLM-based评估提供了全面分析，并公开了相关提示模板、代码和数据以便复现。

Oct, 2024

大型语言模型在机器翻译评估中需要什么？

本研究探讨了大型语言模型（LLMs）在机器翻译（MT）评估中所需的翻译信息，包括来源、参考、翻译错误和注释指南。研究结果表明，参考翻译对LLM的评估至关重要，同时发现Chain of Thought（CoT）提示对较大模型的影响更为显著，为资源受限的LLM评估提供了全面分析。

Oct, 2024