使用风险调整置信度评分提升大型语言模型鲁棒性的形式化与方法
高风险领域中的语言模型性能评估是一个重要问题,本研究对指导调优的语言模型进行深入分析,重点关注事实准确性和安全性,通过在法律和医学两个高风险领域的六个自然语言处理数据集上进行实验,发现目前语言模型存在的局限性,并强调了提高语言模型能力和改进领域特定指标的重要性,以及通过更人性化的方法来增强安全性和事实可靠性,研究结果对于适应高风险领域、履行社会义务并符合即将颁布的欧盟 AI 法案具有重要推动作用。
Nov, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结果表明 LLMs 倾向于认为信息风险较少有害,并通过特殊开发的回归模型对此进行了确认,此外,研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格,强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。
Mar, 2024
大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关,然而它们在引入的同时也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性,为了避免潜在的危害,本研究探讨了部署 LLMs 所面临的风险,并评估了目前实施防护和模型对齐技术的方法,从固有和外在偏见评估方法入手,并讨论了公平度度量方法,还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性,强调了可测试性、故障保护和情境意识的需求,还提出了保护 LLMs 的技术策略,包括操作在外部、次要和内部层次的分层保护模型,突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术,有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素,在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战,本研究强调了持续研究和开发的重要性,以确保 LLMs 在实际应用中的安全和负责任使用。
Jun, 2024
风险分析中,检查了不同模型的效果,发现 LLMs 的速度快且具有实际行动性,而 RAG-assisted LLMs 能够有效发现隐藏的风险,成为精确性需要的 FTMs 和全面性可行性需要的基本模型的有效补充。因此,专家可以在紧凑的时间内利用 LLMs 进行风险分析,同时避免不必要的开支。
Jun, 2024
用人工智能在金融领域应用的一项新型框架 RiskLabs,通过整合各种金融数据和大语言模型来分析和预测金融风险。通过实证实验结果,我们展示了 RiskLabs 在金融市场的波动性和方差预测中的有效性,并讨论了大语言模型在这一领域中的关键作用。这些发现不仅对 AI 在金融领域的应用做出了贡献,也为在金融风险评估中应用大语言模型开启了新的途径。
Apr, 2024
在不确定性下做决策时,个体往往偏离理性行为,这可以通过风险偏好、概率权重和损失规避三个维度进行评估。本文提出基于行为经济学的框架,评估大型语言模型(LLMs)的决策行为,结果显示 LLMs 通常表现出类似于人类的行为模式,如风险规避和损失规避,并且倾向于高估小概率。然而,不同的 LLMs 在表达这些行为的程度上存在显著差异。此外,研究还探讨了当 LLMs 嵌入社会人口学特征时的行为,并发现存在显著差异。因此,本研究倡导制定标准和指南,确保 LLMs 在提升复杂决策环境中的效用的同时,遵守伦理规范和尽量减少潜在偏见。
Jun, 2024
通过证明大型语言模型在回答问题时,如果它们更为熟练,显示更均匀的概率分布,我们启发性地讨论了这个问题。在此基础上,我们提出了一种新的自我评估方法 ProbDiff,用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本之间的概率差异,避免了额外评估模型的需要,也不依赖于外部的专有模型如 GPT-4。我们的研究结果表明 ProbDiff 在各种情景下如翻译、摘要生成、我们提出的 “小红书” 博客写作等自然语言生成任务以及 AlignBench、MT-Bench 和 AlpacaEval 等语言模型评估基准上取得了与基于 GPT-4 的评估相当的结果。
May, 2024
通过使用多种语言进行训练,大型语言模型(LLMs)通常具有多语言支持,并展示出在不同语言描述的任务中解决问题的显著能力。然而,由于在不同语言之间训练数据的不均衡分布,LLMs 可能表现出语言歧视,即面对相同任务但在不同语言中描述时,难以保持一致的响应。在本研究中,我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集(AdvBench 和 NQ)对四个 LLMs(Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro)进行分析。结果显示,与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比,LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力(平均有 1.04%的有害查询成功越狱)。此外,对于英语、丹麦语、捷克语和斯洛文尼亚语的查询,LLMs 倾向于产生具有更高质量的响应(平均 F1 得分为 0.1494),与其他语言相比。基于这些发现,我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示,LDFighter 不仅显著降低了成功越狱的概率,还平均改善了响应质量,证明了其有效性。
Apr, 2024