2023 Eval4NLP 子任务: 使用促使大型语言模型作为解释性⽅法的度量
本文介绍了新的提示方法(Error Analysis Prompting), 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能,并发现了一些其作为 MT 评估器的局限性,结果表明,使用 Error Analysis Prompting,ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。
Mar, 2023
自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具,本文在已有单一评分指标的基础上提出AutoMQM,一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型PaLM和PaLM-2,通过简单的得分预测提示,发现AutoMQM在PaLM-2模型上优于仅提示得分的性能,并能提供与人工注释相一致的错误范围,具有解释性。
Aug, 2023
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
本文描述和分析了我们参与2023 Eval4NLP共享任务的工作,该任务主要关注评估基于提示的技术对大型语言模型在质量估计任务中的有效性,特别是在评估机器翻译和摘要的背景下。我们进行了系统实验,尝试了各种提示技术,包括标准提示、基于注释人指示的提示和创新的思路链提示。此外,我们结合了零样本学习和一次性学习方法,以最大化我们的评估程序的效力。我们的工作表明,使用“小型”开源模型(orca_mini_v3_7B)结合这些方法可以取得具有竞争力的结果。
Nov, 2023
通过分析提示策略、评分聚合和解释性等多个方面,本研究探索了基于开源大型语言模型(LLMs)的度量方法在自然语言生成品质评估中的潜力,并提供了有关开源LLMs评估能力的实验结果和有效的提示策略。
Nov, 2023
本文描述了IUST NLP实验室在Eval4NLP 2023会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了LLMs在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了0.477。代码和结果可以在GitHub上公开获取。
Nov, 2023
LLM 和基于 LLM 的度量方法的稳定性和变异性,探索了不同提示策略影响机器翻译和摘要评估的研究,发现了最稳定的提示模式和潜在限制。
Jun, 2024
本文探讨了大型语言模型(LLM)在机器翻译(MT)质量评估中所需的翻译信息,包括源文本、参考翻译、翻译错误和注释指南。研究发现,参考翻译在基于LLM的评估中至关重要,且CoT提示技术对大型模型的表现有更显著的提升作用。我们的工作为资源有限且无需训练的LLM-based评估提供了全面分析,并公开了相关提示模板、代码和数据以便复现。
Oct, 2024
本研究探讨了大型语言模型(LLMs)在机器翻译(MT)评估中所需的翻译信息,包括来源、参考、翻译错误和注释指南。研究结果表明,参考翻译对LLM的评估至关重要,同时发现Chain of Thought(CoT)提示对较大模型的影响更为显著,为资源受限的LLM评估提供了全面分析。
Oct, 2024