May, 2023

大型语言模型自动评估归因

TL;DR本文探讨了大型语言模型在自动评估引用时的两种方法:引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果,旨在为这一重要问题的未来研究打下基础。