本文提出了一种针对 GPT-4 和 GPT-3.5 的综合可信度评估方法,考虑了种族偏见,毒性,对抗鲁棒性,越界鲁棒性,对抗演示的鲁棒性,隐私,机器伦理和公平性等因素。评估发现了先前不公开的可信度威胁漏洞,例如,GPT 模型可以很容易地被误导生成有毒和有偏向性的输出并泄露私人信息。
Jun, 2023
通过对 OpenAI 的 ChatGPT 进行定性研究,发现大规模语言模型的伦理风险主要包括偏见性和毒性,当前的基准测试无法解决这些问题,为了避免语言模型应用中出现伦理风险,需要制定可靠的基准测试和实施设计。
Jan, 2023
介绍了 TrustLLM,这是一个关于 LLM(大型语言模型)信任度的综合研究,包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度,以及对开放挑战和未来方向的讨论。
Jan, 2024
本文探讨了 ChatGPT 在不同任务中的表现评估问题,特别是针对数据污染问题,以 stance detection 为例,同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。
Mar, 2023
基于预定义的领域知识图谱,本文提出了一种系统的方法来衡量大型语言模型的可信度,其过程中人类参与验证和优化系统,该方法对于在卫生保健、国防、金融等关键环境中运营的实体以及所有大型语言模型用户十分重要。
Mar, 2024
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本文旨在提供有关 ChatGPT 的安全风险的概述,包括恶意文本和代码生成、私人数据披露、诈骗服务、信息收集和生成不道德内容等。我们进行了一项实证研究,检验了 ChatGPT 内容过滤器的有效性,并探讨了绕过这些保护措施的潜在方式,展示了即使当有保护措施时,LLMs 仍存在的伦理和安全风险。基于对安全风险的定性分析,我们讨论了应对这些风险的潜在策略,并向研究人员、决策者和行业专业人员提供有关像 ChatGPT 这样的 LLMs 所面临的复杂安全挑战的信息。本研究对 LLMs 的伦理和安全影响的持续讨论做出了贡献,强调了在此领域需要继续进行研究的必要性。
该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench,其中包括了四个明确分类的部分:人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试,并采用了越狱方法绕过安全对齐协议,测试了 LLMs 的内在特性。
Oct, 2023
为了进一步推动大型语言模型的安全部署,我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现,并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现,公开发布了 100k 个增强测试用例和 LLMs 生成的响应。
Apr, 2023
本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现,并与经过微调的 BERT 模型和放射科医生进行比较。结果显示,GPT3.5 在性能方面略逊于 BERT 和放射科医生,但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外,我们还发现了一些系统性错误,需要加以解决以提高其在临床中的使用安全性和适用性。