2023 Eval4NLP 子任务:使用促使大型语言模型作为解释性⽅法的度量
本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了 LLMs 在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。
Nov, 2023
通过分析提示策略、评分聚合和解释性等多个方面,本研究探索了基于开源大型语言模型(LLMs)的度量方法在自然语言生成品质评估中的潜力,并提供了有关开源 LLMs 评估能力的实验结果和有效的提示策略。
Nov, 2023
本文描述和分析了我们参与 2023 Eval4NLP 共享任务的工作,该任务主要关注评估基于提示的技术对大型语言模型在质量估计任务中的有效性,特别是在评估机器翻译和摘要的背景下。我们进行了系统实验,尝试了各种提示技术,包括标准提示、基于注释人指示的提示和创新的思路链提示。此外,我们结合了零样本学习和一次性学习方法,以最大化我们的评估程序的效力。我们的工作表明,使用 “小型” 开源模型(orca_mini_v3_7B)结合这些方法可以取得具有竞争力的结果。
Nov, 2023
LLM 和基于 LLM 的度量方法的稳定性和变异性,探索了不同提示策略影响机器翻译和摘要评估的研究,发现了最稳定的提示模式和潜在限制。
Jun, 2024
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
通过研究生成式大型语言模型在机器翻译中的性能,我们发现多语言模型(如 PaLM)在人工翻译输出方面表现出类似人类的水平,能够根据样式指南和语言要求优化所需的翻译细微差别,并在处理和应用提示上表现出色。我们还针对流行的语言模型作为机器翻译工具的错误和限制进行了分类和提出了设计提示进行上下文学习的方法。通过改进评估指标的准确性和可靠性,我们的研究旨在促进生成式大型语言模型在机器翻译中的进步。
Jan, 2024
本文旨在探讨使用 LLMS(例如 “gpt-3.5-turbo”)作为自动评估器来评估摘要的性能,并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能,并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。
May, 2023
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
本文探讨了大型语言模型在对话评估上的应用,发现训练模型的数据集的多样性和相关性是影响其性能的关键因素,同时探究了样本数量和使用类型对模型表现的影响。
Jan, 2023
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023