Oct, 2023

2023 Eval4NLP 子任务:使用促使大型语言模型作为解释性⽅法的度量

TL;DR介绍了 Eval4NLP 2023 共享任务,要求参与者在机器翻译和摘要评估中探索提示和分数提取,并评估了参与者的方法。在没有 fine-tuning 的限制下,最佳系统的表现与使用更大模型开发的最新的无参考度量标准(包括 GEMBA 和 Comet-Kiwi-XXL)相媲美甚至超过,并对 LLMs 的解释的可行性进行了小规模人类评估。