使用大语言模型重新审视自动主题模型评估
本研究旨在探讨大型语言模型(LLMs)在主题提取方面的潜力,并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估,总结了采用 LLMs 进行主题提取的优势和限制。
Mar, 2024
我们提出了 WALM (Words Agreement with Language Model) 这一新的主题建模评估方法,综合考虑语义质量,旨在提供一种全面性评估。WALM 与人员判断一致,可作为现有评估方法的补充,为主题建模带来了新的视角。
Jun, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
最近,大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法,比较了各种标准和评分系统,在多个任务和测试中使用了不同的评估者和评分方法,提出了一个新的数据集 LLMEval,并对 20 个大型语言模型进行了评估,得出了 10 个结论,为将来的语言模型评估提供了一些启示。
Dec, 2023
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
借助大型语言模型(LLMs)等新的自然语言处理技术,自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明,前述三个因素确实影响了被测试 LLMs 的性能,并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法,在预测性能、计算效率和一致性方面取得良好平衡。
Jun, 2024
通过对大型语言模型的评估,本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
通过对话题模型进行评估,发现神经网络模型(NTMs)在实际任务中的效果优于传统模型,且自动评估指标无法提供全面的话题建模能力。
Jan, 2024
通过使用大型语言模型 (LLMs) 进行主题建模的两种方法,即并行提示和顺序提示,本文克服了传统主题模型在短文本上推断潜在主题时面临的挑战,并证明这些方法能够识别出比现有方法更连贯的主题,同时保持引发主题的多样性。此外,本研究发现所推断的主题充分涵盖了输入文本,而几乎没有产生虚构的主题。
Jun, 2024
一项最近的自然语言处理研究旨在结合语言模型和主题模型,这些主题引导的语言模型通过将主题模型与神经语言模型相结合,采用无监督学习方法来发现文档级别的词汇使用模式。本文比较了这些方法在标准化环境中的效果,并发现这些方法中没有任何一种超越了标准 LSTM 语言模型基准,并且大多数方法无法学习到好的主题。此外,我们训练了一个探测神经语言模型的方法,结果显示基准模型的隐藏状态已经编码了主题信息。本研究公开了所使用的所有代码。
Dec, 2023