TrustLLM：大型语言模型的可信性

Jan, 2024

TrustLLM: Trustworthiness in Large Language Models

Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang...

TL;DR介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Abstract

large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of →

large language models trustworthiness benchmark evaluation open challenges

发现论文，激发创造

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

真相告诉我：一个用于测量大型语言模型可信度的系统

基于预定义的领域知识图谱，本文提出了一种系统的方法来衡量大型语言模型的可信度，其过程中人类参与验证和优化系统，该方法对于在卫生保健、国防、金融等关键环境中运营的实体以及所有大型语言模型用户十分重要。

Mar, 2024

开源语言模型的可信度 —— 恶意示范中的评估揭示了它们的脆弱性

大型语言模型在开源方面取得的快速进展明显推动了人工智能的发展。本文通过对毒性、公平性、对抗性可信度攻击等八个不同方面的细致考察，提出了一种基于言辞链的引导策略，显示出该攻击策略的高效性以及在不同方面的应用。此外，研究还发现，在一般自然语言处理任务中表现较好的模型并不总是具有较高的可信度，而较大的模型实际上更容易受到攻击。还发现经过指示调优的模型更容易受到攻击，尽管对安全线性模型进行修正可以有效减轻对抗性可信度攻击。

Nov, 2023

TrustGPT：大型语言模型的信任度和责任性基准

本研究旨在通过引入 TrustGPT，评价 LLMs 在毒性、偏见和价值对齐三个关键领域，以促进更具伦理和社会责任感的语言模型的发展。

Jun, 2023

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024

大型语言模型生成的儿童故事的可信度

大语言模型（LLMs）在生成文学文本方面显示出巨大的能力。然而，它们在生成儿童故事方面的有效性尚未得到全面的考查。在本研究中，我们使用各种指标评估 LLMs 生成的儿童故事的可靠性，并将我们的结果与旧的和新的儿童故事进行对比，以更好地评估它们的重要性。我们的研究结果表明，LLMs 在生成儿童故事方面仍然存在质量和细微之处的困难。

Jul, 2023

追踪信誉动态：重新审视大型语言模型的预训练时期

通过对大型语言模型的早期预训练进行线性探测和互信息探测，本文揭示了预训练中大型语言模型在可靠性、隐私、有害性、公平性和稳定性等方面的潜力，为揭示预训练中的可信性建模进行了初步探索。

Feb, 2024