在自然语言推理中定义和评估语言模型的决策风险和复合风险
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
研究探讨了ChatGPT在理解语言方面的局限性,着重于对于通常对人类来说很容易但对该模型来说具有挑战性的简单推理任务的限制,研究结果表明,虽然ChatGPT在某些领域具有语言理解的能力,但是其对于一些特定类型的蕴含有所盲区,该研究强调了更多的对LLMs(大型语言模型)语言理解和推理能力的研究,以提高其可靠性,确立其在实际应用中的可信度。
May, 2023
本研究探讨了不需要模型微调或专有信息的自信度引出方法,通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估,揭示了语言模型的自信度过高以及一些方法的优点。
Jun, 2023
尽管大型语言模型在自然语言处理方面取得了令人瞩目的成就,但它们也存在重要的风险。本文定义和形式化了决策风险和综合风险这两种不同类型的风险,并提出了评估这些风险的风险中心化评估框架和四个新指标。最后,我们提出了一种名为DwD的风险调整校准方法,帮助大型语言模型在整体自然语言推理架构中降低这些风险。实验证明了评估框架的实用性以及DwD在降低决策风险和综合风险方面的功效。
Oct, 2023
高风险领域中的语言模型性能评估是一个重要问题,本研究对指导调优的语言模型进行深入分析,重点关注事实准确性和安全性,通过在法律和医学两个高风险领域的六个自然语言处理数据集上进行实验,发现目前语言模型存在的局限性,并强调了提高语言模型能力和改进领域特定指标的重要性,以及通过更人性化的方法来增强安全性和事实可靠性,研究结果对于适应高风险领域、履行社会义务并符合即将颁布的欧盟AI法案具有重要推动作用。
Nov, 2023
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了LLMs评估方法的有效性和未来研究的启示。
Feb, 2024
因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时,这篇综述从因果的角度对生成大型语言模型进行评估和改进,从而理解和提高生成大型语言模型的推理能力,解决公平性和安全性问题,提供解释支持,并处理多模态数据。与此同时,生成大型语言模型强大的推理能力可以推动因果推断领域的发展,帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用,强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。
Mar, 2024
通过证明大型语言模型在回答问题时,如果它们更为熟练,显示更均匀的概率分布,我们启发性地讨论了这个问题。在此基础上,我们提出了一种新的自我评估方法ProbDiff,用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本之间的概率差异,避免了额外评估模型的需要,也不依赖于外部的专有模型如GPT-4。我们的研究结果表明ProbDiff在各种情景下如翻译、摘要生成、我们提出的“小红书”博客写作等自然语言生成任务以及AlignBench、MT-Bench和AlpacaEval等语言模型评估基准上取得了与基于GPT-4的评估相当的结果。
May, 2024
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中OpenAI的GPT-4表现出最强的信心-概率对齐性,并有助于评估LLMs的风险和提高对模型可信度的认识。
May, 2024