TrustGPT：大型语言模型的信任度和责任性基准

Jun, 2023

TrustGPT：大型语言模型的信任度和责任性基准

TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models

Yue Huang, Qihui Zhang, Philip S. Y, Lichao Sun

TL;DR本研究旨在通过引入 TrustGPT，评价 LLMs 在毒性、偏见和价值对齐三个关键领域，以促进更具伦理和社会责任感的语言模型的发展。

Abstract

large language models (LLMs) such as ChatGPT, have gained significant attention due to their impressive natural language processing capabilities. It is crucial to prioritize human-centered principles when utilizi

large language models human-centered principles ethical issues trustgpt conversation generation models

发现论文，激发创造

解码信任：对 GPT 模型的信任度全面评估

本文提出了一种针对 GPT-4 和 GPT-3.5 的综合可信度评估方法，考虑了种族偏见，毒性，对抗鲁棒性，越界鲁棒性，对抗演示的鲁棒性，隐私，机器伦理和公平性等因素。评估发现了先前不公开的可信度威胁漏洞，例如，GPT 模型可以很容易地被误导生成有毒和有偏向性的输出并泄露私人信息。

Jun, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

ChatGPT 的评价可信吗？

本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Mar, 2023

真相告诉我：一个用于测量大型语言模型可信度的系统

基于预定义的领域知识图谱，本文提出了一种系统的方法来衡量大型语言模型的可信度，其过程中人类参与验证和优化系统，该方法对于在卫生保健、国防、金融等关键环境中运营的实体以及所有大型语言模型用户十分重要。

Mar, 2024

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

探索 ChatGPT 的安全风险：超越安全措施

本文旨在提供有关 ChatGPT 的安全风险的概述，包括恶意文本和代码生成、私人数据披露、诈骗服务、信息收集和生成不道德内容等。我们进行了一项实证研究，检验了 ChatGPT 内容过滤器的有效性，并探讨了绕过这些保护措施的潜在方式，展示了即使当有保护措施时，LLMs 仍存在的伦理和安全风险。基于对安全风险的定性分析，我们讨论了应对这些风险的潜在策略，并向研究人员、决策者和行业专业人员提供有关像 ChatGPT 这样的 LLMs 所面临的复杂安全挑战的信息。本研究对 LLMs 的伦理和安全影响的持续讨论做出了贡献，强调了在此领域需要继续进行研究的必要性。

May, 2023

ChatGPT 是谁？利用 PsychoBench 评估 LLM 的心理描绘

该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench，其中包括了四个明确分类的部分：人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试，并采用了越狱方法绕过安全对齐协议，测试了 LLMs 的内在特性。

Oct, 2023

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Jun, 2023