大型语言模型事件语义的全面评估
对 LLMs 的事件推理能力进行了综合评估,发现 LLMs 在事件推理方面的表现仍然不尽如人意。通过发现 LLMs 对事件推理能力存在的不平衡,提出了两种方法来指导 LLMs 利用事件模式知识,并获得了改进。
Apr, 2024
本文研究事件涵义的模型,通过探讨其对物理属性的理解能力来预测实体状态变化。作者发现,传统的大型语言模型无法很好地理解这方面的知识;而通过适当的提示方式,它们的性能可以得到极大的提升,尤其是对于未知的属性或数据信息不足的情况。
Nov, 2022
在 AI 运维领域中,对于保证信息系统有序和稳定运行,日志分析至关重要。然而,现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此,我们引入了 LogEval,这是一个综合性基准套件,旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估,我们展示了不同大语言模型技术对日志分析性能的影响,重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点,以及不同提示策略的有效性。通过采用不同任务的各种评估方法,准确衡量了大语言模型在日志分析中的性能,确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性,为研究人员和从业人员提供了宝贵的指导。
Jul, 2024
使用大型语言模型从时态复杂事件中提取和分析关键点和时间戳,建立了评估时态动态和理解大量文本的基准。实验证明,采用合适的信息检索和长上下文窗口的模型在处理时态复杂事件的长篇新闻文章时表现出可比较的性能。
Jun, 2024
本文提出了一种 Semantic Pivoting Model for Effective Event Detection (SPEED)—— 显式地在训练期间整合先前信息,捕捉输入与事件之间语义上的相关性,在多个设置中取得最先进的性能,并优于基线方法而不使用任何外部资源。
Nov, 2022
本研究聚焦于利用大型语言模型(LLMs)进行自动事件提取,介绍了一种新方法以解决幻觉问题,通过将任务分解为事件检测和事件参数提取,并将动态结构感知的增强检索示例集成到为每个具体查询定制的提示中,从而扩展和适应检索增强生成等先进提示技术。评估结果表明,与基线方法相比,该方法在突出的事件提取基准和合成基准测试中表现出卓越的性能。
Jun, 2024
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性,超过了其他评估方法,在 LLM 评估领域树立了新的标准。
Nov, 2023
使用合成任务来评估大型语言模型(LLMs)的研究方法 S3Eval,在 S3Eval 与真实世界基准测试之间存在强相关性,同时揭示了模型性能的一些深度分析和反直觉趋势。
Oct, 2023
评估大型语言模型在经济领域的知识和推理能力,发现它们在经济推理方面不够成熟且可能产生错误或虚构的结果,提出了经济事件的自然语言推理数据集(EconNLI)以增强评估方法,认识到在涉及经济推理和分析的关键决策中使用大型语言模型存在局限性。
Jul, 2024
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023