Feb, 2024

语义重叠归纳任务的 LLM 性能评估

TL;DR应用 TELeR 分类法和 15 种流行的大型语言模型(LLMs),对语义重叠摘要任务进行全面评估,评估它们在从多个备选叙述中总结重叠信息的能力,通过使用 ROUGE、BERTscore 和 SEM-F1 等已建立的指标对两个不同数据集进行评估,并分析各种 LLMs 在捕捉重叠信息方面的优势和局限性。