Oct, 2023

2023 Eval4NLP 子任务: 使用促使大型语言模型作为解释性⽅法的度量

TL;DR介绍了Eval4NLP 2023共享任务,要求参与者在机器翻译和摘要评估中探索提示和分数提取,并评估了参与者的方法。在没有fine-tuning的限制下,最佳系统的表现与使用更大模型开发的最新的无参考度量标准(包括GEMBA和Comet-Kiwi-XXL)相媲美甚至超过,并对LLMs的解释的可行性进行了小规模人类评估。